論文の概要: Decoupling Bidirectional Geometric Representations of 4D cost volume with 2D convolution
- arxiv url: http://arxiv.org/abs/2509.02415v1
- Date: Tue, 02 Sep 2025 15:21:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.081229
- Title: Decoupling Bidirectional Geometric Representations of 4D cost volume with 2D convolution
- Title(参考訳): 2次元畳み込みを伴う4次元コスト体積の双方向幾何表現のデカップリング
- Authors: Xiaobao Wei, Changyong Shu, Zhaokun Yue, Chang Huang, Weiwei Liu, Shuai Yang, Lirong Yang, Peng Gao, Wenbin Zhang, Gaochao Zhu, Chengxiang Wang,
- Abstract要約: 本報告では,DBStereoの4次元コストアグリゲーションネットワークについて述べる。
純粋な2D畳み込みに基づいており、同時にリアルタイムのパフォーマンスと印象的な精度を達成する。
- 参考スコア(独自算出の注目度): 40.103929972279126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-performance real-time stereo matching methods invariably rely on 3D regularization of the cost volume, which is unfriendly to mobile devices. And 2D regularization based methods struggle in ill-posed regions. In this paper, we present a deployment-friendly 4D cost aggregation network DBStereo, which is based on pure 2D convolutions. Specifically, we first provide a thorough analysis of the decoupling characteristics of 4D cost volume. And design a lightweight bidirectional geometry aggregation block to capture spatial and disparity representation respectively. Through decoupled learning, our approach achieves real-time performance and impressive accuracy simultaneously. Extensive experiments demonstrate that our proposed DBStereo outperforms all existing aggregation-based methods in both inference time and accuracy, even surpassing the iterative-based method IGEV-Stereo. Our study break the empirical design of using 3D convolutions for 4D cost volume and provides a simple yet strong baseline of the proposed decouple aggregation paradigm for further study. Code will be available at (\href{https://github.com/happydummy/DBStereo}{https://github.com/happydummy/DBStereo}) soon.
- Abstract(参考訳): 高性能なリアルタイムステレオマッチング手法は、モバイルデバイスに不都合なコストボリュームの3D正規化に依存している。
そして、2D正規化に基づく手法は、不適切な領域で苦労する。
本稿では、純粋な2次元畳み込みに基づくデプロイメントフレンドリーな4DコストアグリゲーションネットワークDBStereoを提案する。
具体的には,まず4次元コストボリュームのデカップリング特性を徹底的に解析する。
そして、空間的および不均一な表現をそれぞれ捉えるために、軽量な双方向ジオメトリアグリゲーションブロックを設計する。
分離学習により,本手法はリアルタイム性能と印象的な精度を同時に達成する。
実験の結果,提案したDBStereoは,IGEV-Stereoの反復的手法を超越しても,推定時間と精度の両方で既存のアグリゲーションベースの手法よりも優れていた。
本研究は,3次元畳み込みを用いた4次元コストボリュームの実証設計を概説し,提案した2重集約パラダイムの単純かつ強力なベースラインを更なる研究のために提供する。
コードはもうすぐ (\href{https://github.com/happydummy/DBStereo}{https://github.com/happydummy/DBStereo}) で利用可能になる。
関連論文リスト
- LightStereo: Channel Boost Is All You Need for Efficient 2D Cost Aggregation [27.00836175513738]
LightStereoは、マッチングプロセスを加速するために作られた最先端のステレオマッチングネットワークである。
私たちのブレークスルーは、3Dコストボリュームのチャネル次元に特化してパフォーマンスを向上させることです。
LightStereoは、SceneFlowデータセットで競合するEPEメトリックを達成し、最低でも22GFLOPと17msのランタイムを必要とする。
論文 参考訳(メタデータ) (2024-06-28T11:11:24Z) - Fully Sparse Fusion for 3D Object Detection [69.32694845027927]
現在広く使われているマルチモーダル3D検出法は、通常、密度の高いBird-Eye-View特徴マップを使用するLiDARベースの検出器上に構築されている。
完全にスパースなアーキテクチャは、長距離知覚において非常に効率的であるため、注目を集めている。
本稿では,新たに出現するフルスパースアーキテクチャにおいて,画像のモダリティを効果的に活用する方法を検討する。
論文 参考訳(メタデータ) (2023-04-24T17:57:43Z) - Image-Coupled Volume Propagation for Stereo Matching [0.24366811507669117]
我々は,共生関係を実現するために,一つのフレームワークに2つの異なる概念をマージする4Dコストボリュームを処理する新しい方法を提案する。
特徴マッチング部は、同一画素対を基準線に沿って識別し、同時画像ボリューム部はモノCNNからの奥行きにインスパイアされる。
エンドツーエンドのトレーニング済みCNNは、KITTI2012とETH3Dベンチマークで2位にランクされ、第1ランクの手法よりもはるかに高速です。
論文 参考訳(メタデータ) (2022-12-30T13:23:25Z) - Displacement-Invariant Cost Computation for Efficient Stereo Matching [122.94051630000934]
ディープラーニング手法は、前例のない不一致の精度を得ることによって、ステレオマッチングのリーダーボードを支配してきた。
しかし、その推測時間は一般的に540p画像の秒数で遅い。
本研究では,4次元特徴量を必要としないEmphdisplacement-invariant cost moduleを提案する。
論文 参考訳(メタデータ) (2020-12-01T23:58:16Z) - Displacement-Invariant Matching Cost Learning for Accurate Optical Flow
Estimation [109.64756528516631]
学習のマッチングコストは、最先端のディープステレオマッチング手法の成功に不可欠であることが示されている。
本稿では,5次元特徴量構築の要件を回避できる新しい手法を提案する。
提案手法は,各種データセットにおける最先端の精度を実現し,Sintelベンチマークにおける全光フロー法より優れる。
論文 参考訳(メタデータ) (2020-10-28T09:57:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。