論文の概要: BANet: Bilateral Aggregation Network for Mobile Stereo Matching
- arxiv url: http://arxiv.org/abs/2503.03259v1
- Date: Wed, 05 Mar 2025 08:33:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:52:12.872279
- Title: BANet: Bilateral Aggregation Network for Mobile Stereo Matching
- Title(参考訳): BANet:モバイルステレオマッチングのための双方向アグリゲーションネットワーク
- Authors: Gangwei Xu, Jiaxin Liu, Xianqi Wang, Junda Cheng, Yong Deng, Jinliang Zang, Yurui Chen, Xin Yang,
- Abstract要約: 最先端のステレオマッチング手法は、通常、コストのかかる3D畳み込みを使用して、全コストのボリュームを集約する。
本稿では,2次元畳み込みのみを用いて,鋭いエッジと細かな細部を持つ高品質な結果を生成する,移動体ステレオマッチングのための新しい双方向アグリゲーションネットワーク(BANet)を提案する。
- 参考スコア(独自算出の注目度): 13.41584034658086
- License:
- Abstract: State-of-the-art stereo matching methods typically use costly 3D convolutions to aggregate a full cost volume, but their computational demands make mobile deployment challenging. Directly applying 2D convolutions for cost aggregation often results in edge blurring, detail loss, and mismatches in textureless regions. Some complex operations, like deformable convolutions and iterative warping, can partially alleviate this issue; however, they are not mobile-friendly, limiting their deployment on mobile devices. In this paper, we present a novel bilateral aggregation network (BANet) for mobile stereo matching that produces high-quality results with sharp edges and fine details using only 2D convolutions. Specifically, we first separate the full cost volume into detailed and smooth volumes using a spatial attention map, then perform detailed and smooth aggregations accordingly, ultimately fusing both to obtain the final disparity map. Additionally, to accurately identify high-frequency detailed regions and low-frequency smooth/textureless regions, we propose a new scale-aware spatial attention module. Experimental results demonstrate that our BANet-2D significantly outperforms other mobile-friendly methods, achieving 35.3\% higher accuracy on the KITTI 2015 leaderboard than MobileStereoNet-2D, with faster runtime on mobile devices. The extended 3D version, BANet-3D, achieves the highest accuracy among all real-time methods on high-end GPUs. Code: \textcolor{magenta}{https://github.com/gangweiX/BANet}.
- Abstract(参考訳): 最先端のステレオマッチング手法は、通常、コストのかかる3D畳み込みを使って全コストを集約するが、その計算要求はモバイルデプロイメントを困難にしている。
コストアグリゲーションに2Dコンボリューションを直接適用すると、エッジのぼやけ、ディテールの損失、テクスチャレスな領域でのミスマッチが発生することが多い。
変形可能な畳み込みや反復ワープのような複雑な操作は、この問題を部分的に軽減することができるが、モバイルフレンドリーではないため、モバイルデバイスへのデプロイメントを制限している。
本稿では,2次元畳み込みのみを用いて,鋭いエッジと細かな細部を持つ高品質な結果を生成する,移動体ステレオマッチングのためのバイラルアグリゲーションネットワーク(BANet)を提案する。
具体的には,まず空間的注意マップを用いて,全コストを細部・滑らかなボリュームに分割し,それに従って細部・滑らかなアグリゲーションを行い,最終的に両者を融合させて最終相違マップを得る。
さらに、高周波の細部と低周波の滑らか/無テクスチャ領域を正確に識別するために、新たにスケール認識型空間アテンションモジュールを提案する。
実験の結果、BANet-2Dは他のモバイルフレンドリーな手法よりも優れており、モバイルStereoNet-2DよりもKITTI 2015のリーダーボードでは35.3倍の精度でモバイル端末でのランタイムが高速であることがわかった。
拡張された3DバージョンであるBANet-3Dは、ハイエンドGPU上のすべてのリアルタイムメソッドの中で最も精度が高い。
コード: \textcolor{magenta}{https://github.com/gangweiX/BANet}。
関連論文リスト
- NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized
Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。
我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。
シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文 参考訳(メタデータ) (2023-09-26T02:09:52Z) - Fully Sparse Fusion for 3D Object Detection [69.32694845027927]
現在広く使われているマルチモーダル3D検出法は、通常、密度の高いBird-Eye-View特徴マップを使用するLiDARベースの検出器上に構築されている。
完全にスパースなアーキテクチャは、長距離知覚において非常に効率的であるため、注目を集めている。
本稿では,新たに出現するフルスパースアーキテクチャにおいて,画像のモダリティを効果的に活用する方法を検討する。
論文 参考訳(メタデータ) (2023-04-24T17:57:43Z) - Monocular Scene Reconstruction with 3D SDF Transformers [17.565474518578178]
本研究では,より優れた3次元特徴集約のために3次元CNNを代替するSDFトランスフォーマーネットワークを提案する。
複数のデータセットの実験により、この3Dトランスフォーマーネットワークはより正確で完全な再構成を生成することが示された。
論文 参考訳(メタデータ) (2023-01-31T09:54:20Z) - DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets [95.84755169585492]
本研究では,屋外3次元知覚のためのシングルストライドウィンドウベースのボクセルトランスであるDynamic Sparse Voxel Transformer (DSVT)を提案する。
本モデルでは,3次元認識タスクを多岐にわたって行うことにより,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-01-15T09:31:58Z) - MobileStereoNet: Towards Lightweight Deep Networks for Stereo Matching [14.93689986544889]
複雑度を低減し,精度を犠牲にすることなく,ステレオビジョンのための2つの光モデルを提案する。
我々は2D MobileNetブロックを活用し、ステレオビジョンアプリケーションのためにそれを3Dに拡張する。
実験の結果,提案した2D/3Dネットワークは計算コストを効果的に削減できることがわかった。
論文 参考訳(メタデータ) (2021-08-22T16:14:27Z) - SMD-Nets: Stereo Mixture Density Networks [68.56947049719936]
SMD-Nets(Stereo Mixture Density Networks)は、幅広い2Dおよび3Dアーキテクチャに対応したシンプルで効果的な学習フレームワークです。
具体的には,バイモーダル混合密度を出力表現として活用し,不連続近傍の鋭く正確な不一致推定を可能にすることを示す。
我々は8Mpx解像度のステレオペアと現実世界のステレオデータセットからなる、新しい高解像度でリアルな合成ステレオデータセットに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2021-04-08T16:15:46Z) - Displacement-Invariant Cost Computation for Efficient Stereo Matching [122.94051630000934]
ディープラーニング手法は、前例のない不一致の精度を得ることによって、ステレオマッチングのリーダーボードを支配してきた。
しかし、その推測時間は一般的に540p画像の秒数で遅い。
本研究では,4次元特徴量を必要としないEmphdisplacement-invariant cost moduleを提案する。
論文 参考訳(メタデータ) (2020-12-01T23:58:16Z) - Do End-to-end Stereo Algorithms Under-utilize Information? [7.538482310185133]
本稿では,2次元および3次元の畳み込みネットワークに適応フィルタリングと半グローバルアグリゲーションを組み込むことによって,エンドツーエンドのステレオマッチングを実現する方法を示す。
改善は、画像からのRGB情報を信号として利用し、マッチングプロセスを動的にガイドすることによる。
論文 参考訳(メタデータ) (2020-10-14T18:32:39Z) - RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks
on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。
3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文 参考訳(メタデータ) (2020-07-20T02:05:32Z) - Content-Aware Inter-Scale Cost Aggregation for Stereo Matching [42.02981855948903]
本手法は,異なるスケールで情報収集を行う際に,信頼性の高い詳細回復を実現する。
3次元フィルタ重みを効率的に構築し、3次元コスト容積を集約する新しい分解戦略を提案する。
Scene Flow データセット,KITTI2015 と Middlebury の実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2020-06-05T02:38:34Z) - AANet: Adaptive Aggregation Network for Efficient Stereo Matching [33.39794232337985]
現在の最先端ステレオモデルは、ほとんどが高価な3D畳み込みに基づいている。
エッジフェットング問題を緩和するために,スパースポイントに基づくスケール内コストアグリゲーション手法を提案する。
また、従来のクロススケールなコスト集約アルゴリズムをニューラルネットワーク層に近似して、大きなテクスチャレス領域を処理する。
論文 参考訳(メタデータ) (2020-04-20T18:07:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。