論文の概要: IGEV++: Iterative Multi-range Geometry Encoding Volumes for Stereo Matching
- arxiv url: http://arxiv.org/abs/2409.00638v1
- Date: Sun, 1 Sep 2024 07:02:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 13:09:07.917827
- Title: IGEV++: Iterative Multi-range Geometry Encoding Volumes for Stereo Matching
- Title(参考訳): IGEV++: ステレオマッチングのための反復的マルチレンジ幾何符号化ボリューム
- Authors: Gangwei Xu, Xianqi Wang, Zhaoxing Zhang, Junda Cheng, Chunyuan Liao, Xin Yang,
- Abstract要約: ステレオマッチングのための新しいディープネットワークアーキテクチャIGEV++を提案する。
提案したIGEV++は,不測領域の粗粒度形状情報をエンコードするMGEV(Multi-range Geometry Volumes)を構築する。
適応的なパッチマッチングモジュールを導入し、大きな不均等領域や不整合領域のマッチングコストを効率的に計算する。
- 参考スコア(独自算出の注目度): 7.859381791267791
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stereo matching is a core component in many computer vision and robotics systems. Despite significant advances over the last decade, handling matching ambiguities in ill-posed regions and large disparities remains an open challenge. In this paper, we propose a new deep network architecture, called IGEV++, for stereo matching. The proposed IGEV++ builds Multi-range Geometry Encoding Volumes (MGEV) that encode coarse-grained geometry information for ill-posed regions and large disparities and fine-grained geometry information for details and small disparities. To construct MGEV, we introduce an adaptive patch matching module that efficiently and effectively computes matching costs for large disparity ranges and/or ill-posed regions. We further propose a selective geometry feature fusion module to adaptively fuse multi-range and multi-granularity geometry features in MGEV. We then index the fused geometry features and input them to ConvGRUs to iteratively update the disparity map. MGEV allows to efficiently handle large disparities and ill-posed regions, such as occlusions and textureless regions, and enjoys rapid convergence during iterations. Our IGEV++ achieves the best performance on the Scene Flow test set across all disparity ranges, up to 768px. Our IGEV++ also achieves state-of-the-art accuracy on the Middlebury, ETH3D, KITTI 2012, and 2015 benchmarks. Specifically, IGEV++ achieves a 3.23% 2-pixel outlier rate (Bad 2.0) on the large disparity benchmark, Middlebury, representing error reductions of 31.9% and 54.8% compared to RAFT-Stereo and GMStereo, respectively. We also present a real-time version of IGEV++ that achieves the best performance among all published real-time methods on the KITTI benchmarks. The code is publicly available at https://github.com/gangweiX/IGEV-plusplus
- Abstract(参考訳): ステレオマッチングは多くのコンピュータビジョンとロボティクスシステムの中核的なコンポーネントである。
過去10年間で大きな進歩があったにもかかわらず、不適切な地域や大きな格差におけるあいまいさの対応は依然としてオープンな課題である。
本稿では,ステレオマッチングのための新しいディープネットワークアーキテクチャIGEV++を提案する。
提案したIGEV++は,不適切な領域の粗粒度と細粒度と細粒度と細粒度とをエンコードするMGEV(Multi-range Geometry Encoding Volumes)を構築する。
MGEVを構築するために,大規模な不均等領域や不整合領域のマッチングコストを効率よく効果的に計算する適応型パッチマッチングモジュールを提案する。
さらに,MGEVにおける多範囲および多粒度特徴を適応的に融合する選択的幾何特徴融合モジュールを提案する。
次に、融合した幾何学的特徴をインデックス化し、それをConvGRUsに入力し、不均一写像を反復的に更新する。
MGEVは、オクルージョンやテクスチャレスのような大きな不均一な領域を効率的に扱うことができ、イテレーション中に急速に収束する。
私たちのIGEV++は、Scene Flowテストセットで最大768pxまで、すべての異なる範囲で最高のパフォーマンスを実現しています。
私たちのIGEV++は、Middlebury、ETH3D、KITTI 2012、2015ベンチマークの最先端の精度も達成しています。
具体的には、IGEV++は大きな格差ベンチマークであるMiddleburyで3.23%の2ピクセルアウトリーレート(Bad 2.0)を達成し、RAFT-StereoやGMStereoと比較してエラーが31.9%、54.8%減少した。
また、IGEV++のリアルタイムバージョンを提示し、KITTIベンチマークで公開されたすべてのリアルタイムメソッドの中で最高のパフォーマンスを達成する。
コードはhttps://github.com/gangweiX/IGEV-plusplusで公開されている。
関連論文リスト
- CityGaussianV2: Efficient and Geometrically Accurate Reconstruction for Large-Scale Scenes [53.107474952492396]
CityGaussianV2は大規模なシーン再構築のための新しいアプローチである。
分解段階の密度化・深さ回帰手法を実装し, ぼやけたアーチファクトを除去し, 収束を加速する。
本手法は, 視覚的品質, 幾何学的精度, ストレージ, トレーニングコストの両立を図っている。
論文 参考訳(メタデータ) (2024-11-01T17:59:31Z) - DMESA: Densely Matching Everything by Segmenting Anything [16.16319526547664]
本稿では,新しい特徴マッチング手法としてMESAとDMESAを提案する。
MESAはSAMの高度な画像理解に基づいて、点マッチングの前に暗黙のセマンティック領域マッチングを確立する。
繰り返し計算が少ないため、DMESAはMESAと比較して約5倍の速度向上を示す。
論文 参考訳(メタデータ) (2024-08-01T04:39:36Z) - Real-Time 3D Occupancy Prediction via Geometric-Semantic Disentanglement [8.592248643229675]
運転予測は自律運転(AD)において重要な役割を担っている
既存の手法はしばしば高い計算コストを発生させるが、これはADのリアルタイム要求と矛盾する。
ハイブリッドBEV-Voxel表現を用いた幾何学的意味的デュアルブランチネットワーク(GSDBN)を提案する。
論文 参考訳(メタデータ) (2024-07-18T04:46:13Z) - Grounding Image Matching in 3D with MASt3R [8.14650201701567]
本稿では,トランスフォーマーをベースとした強力な3次元再構成フレームワークであるDUSt3Rによる3Dタスクのキャストマッチングを提案する。
我々は,DUSt3Rネットワークを高密度な局所的特徴を出力する新しいヘッドで拡張することを提案する。
提案手法はMASt3Rとよばれる手法で,複数のマッチングタスクにおいて技量を著しく上回っている。
論文 参考訳(メタデータ) (2024-06-14T06:46:30Z) - SAGS: Structure-Aware 3D Gaussian Splatting [53.6730827668389]
本研究では,シーンの形状を暗黙的に符号化する構造認識型ガウス散乱法(SAGS)を提案する。
SAGSは、最先端のレンダリング性能と、ベンチマークノベルビュー合成データセットのストレージ要件の削減を反映している。
論文 参考訳(メタデータ) (2024-04-29T23:26:30Z) - SATR: Zero-Shot Semantic Segmentation of 3D Shapes [74.08209893396271]
大規模オフザシェルフ2次元画像認識モデルを用いて3次元形状のゼロショットセマンティックセマンティックセマンティックセグメンテーションの課題について検討する。
本研究では、SATRアルゴリズムを開発し、ShapeNetPartと提案したFAUSTベンチマークを用いて評価する。
SATRは最先端のパフォーマンスを達成し、ベースラインアルゴリズムを平均mIoUの1.3%と4%で上回っている。
論文 参考訳(メタデータ) (2023-04-11T00:43:16Z) - Iterative Geometry Encoding Volume for Stereo Matching [4.610675756857714]
IGEV-Stereoは、ジオメトリとコンテキスト情報をエンコードするボリュームと、局所的なマッチングの詳細を組み合わせたジオメトリを構築する。
IGEV-Stereoは、KITTI 2015と2012(Reflective)で1位であり、トップ10のメソッドの中では最速です。
IGEVをマルチビューステレオ(MVS)に拡張して,DTUベンチマーク上での競合精度を実現する。
論文 参考訳(メタデータ) (2023-03-12T09:11:14Z) - Parallel Structure from Motion for UAV Images via Weighted Connected
Dominating Set [5.17395782758526]
本稿では,クラスタマージのための大域的モデルを抽出し,効率よく正確なUAV画像配向を実現するために並列SfMソリューションを設計するアルゴリズムを提案する。
実験の結果,提案した並列SfMは17.4倍の効率向上と相対配向精度が得られることがわかった。
論文 参考訳(メタデータ) (2022-06-23T06:53:06Z) - VoGE: A Differentiable Volume Renderer using Gaussian Ellipsoids for
Analysis-by-Synthesis [62.47221232706105]
本稿では,ガウス再構成カーネルをボリュームプリミティブとして利用するVoGEを提案する。
本稿では,VoGEを用いて効率よくレンダリングを行うために,体積密度集約と粗大な描画戦略に関する近似クローズフォーム解を提案する。
VoGEは、オブジェクトポーズ推定、形状/テクスチャフィッティング、推論など、様々な視覚タスクに適用された場合、SoTAより優れている。
論文 参考訳(メタデータ) (2022-05-30T19:52:11Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z) - Enhancing Geometric Factors in Model Learning and Inference for Object
Detection and Instance Segmentation [91.12575065731883]
境界ボックス回帰および非最大抑圧(NMS)における幾何学的要素の強化を目的とした完全IoU損失とクラスタNMSを提案する。
CIoU損失を用いたディープラーニングモデルのトレーニングは、広く採用されている$ell_n$-norm損失とIoUベースの損失と比較して、一貫性のあるAPとARの改善をもたらす。
クラスタ-NMSは、純粋なGPU実装のため非常に効率的であり、APとARの両方を改善するために幾何学的要素を組み込むことができる。
論文 参考訳(メタデータ) (2020-05-07T16:00:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。