論文の概要: DEFOM-Stereo: Depth Foundation Model Based Stereo Matching
- arxiv url: http://arxiv.org/abs/2501.09466v3
- Date: Wed, 23 Apr 2025 10:38:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-24 20:25:50.737184
- Title: DEFOM-Stereo: Depth Foundation Model Based Stereo Matching
- Title(参考訳): DEFOM-Stereo:depth Foundation Model based Stereo Matching
- Authors: Hualie Jiang, Zhiqiang Lou, Laiyan Ding, Rui Xu, Minglang Tan, Wenjie Jiang, Rui Huang,
- Abstract要約: DEFOM-Stereoはモノクローナルディープキューとの堅牢なステレオマッチングを容易にするために構築されている。
SOTA法と比較してより強いゼロショットの一般化があることが確認された。
我々のモデルは、個々のベンチマークにおいて、以前のモデルより同時に優れています。
- 参考スコア(独自算出の注目度): 12.22373236061929
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Stereo matching is a key technique for metric depth estimation in computer vision and robotics. Real-world challenges like occlusion and non-texture hinder accurate disparity estimation from binocular matching cues. Recently, monocular relative depth estimation has shown remarkable generalization using vision foundation models. Thus, to facilitate robust stereo matching with monocular depth cues, we incorporate a robust monocular relative depth model into the recurrent stereo-matching framework, building a new framework for depth foundation model-based stereo-matching, DEFOM-Stereo. In the feature extraction stage, we construct the combined context and matching feature encoder by integrating features from conventional CNNs and DEFOM. In the update stage, we use the depth predicted by DEFOM to initialize the recurrent disparity and introduce a scale update module to refine the disparity at the correct scale. DEFOM-Stereo is verified to have much stronger zero-shot generalization compared with SOTA methods. Moreover, DEFOM-Stereo achieves top performance on the KITTI 2012, KITTI 2015, Middlebury, and ETH3D benchmarks, ranking $1^{st}$ on many metrics. In the joint evaluation under the robust vision challenge, our model simultaneously outperforms previous models on the individual benchmarks, further demonstrating its outstanding capabilities.
- Abstract(参考訳): ステレオマッチングはコンピュータビジョンとロボット工学における計量深度推定の鍵となる手法である。
隠蔽や非テクスチャのような現実世界の課題は、両眼のマッチングの手がかりから正確な不均一性の推定を妨げている。
近年,視覚基礎モデルを用いた単分子相対深度推定が顕著に一般化されている。
そこで, 単分子深度を用いた頑健なステレオマッチングを容易にするために, 単分子相対深度モデルを連続したステレオマッチングフレームワークに組み込み, 深度基礎モデルに基づくステレオマッチングのための新しいフレームワークであるDEFOM-Stereoを構築した。
特徴抽出の段階では,従来のCNNとDEFOMの機能を統合することで,コンテキストとマッチングを組み合わせた特徴エンコーダを構築する。
更新段階では、DEFOMが予測した深さを用いて、繰り返しの格差を初期化し、スケール更新モジュールを導入し、適切なスケールで格差を洗練させる。
DEFOM-StereoはSOTA法に比べてはるかに強力なゼロショット一般化を持つ。
さらに、DEFOM-Stereoは、KITTI 2012、KITTI 2015、Middlebury、ETH3Dベンチマークで最高パフォーマンスを達成し、多くのメトリクスで1^{st}$をランク付けしている。
頑健なビジョン課題に基づく共同評価において、我々のモデルは個々のベンチマークで以前のモデルよりも優れており、その優れた能力を示している。
関連論文リスト
- Boosting Omnidirectional Stereo Matching with a Pre-trained Depth Foundation Model [62.37493746544967]
カメラベースの設定は、立体深度推定を用いて高解像度の高解像度深度マップを生成することで、コスト効率のよい選択肢を提供する。
既存の全方位ステレオマッチング手法は、様々な環境において限られた深度精度しか達成できない。
DFI-OmniStereoは, 大規模事前学習基礎モデルを用いて, 相対的な単眼深度推定を行う新しい全方位ステレオマッチング法である。
論文 参考訳(メタデータ) (2025-03-30T16:24:22Z) - MonoDINO-DETR: Depth-Enhanced Monocular 3D Object Detection Using a Vision Foundation Model [2.0624236247076397]
本研究では,視覚変換器(ViT)をベースとした基礎モデルをバックボーンとし,世界的特徴を抽出して深度推定を行う。
検出変換器(DETR)アーキテクチャを統合し、深度推定と物体検出性能を1段階的に改善する。
提案モデルは、KITTIの3Dベンチマークと高標高レース環境から収集したカスタムデータセットの評価により、最近の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2025-02-01T04:37:13Z) - FoundationStereo: Zero-Shot Stereo Matching [50.79202911274819]
FoundationStereoはステレオ深度推定の基礎モデルである。
まず,大規模(1Mステレオペア)合成学習データセットを構築した。
その後、スケーラビリティを高めるために、多数のネットワークアーキテクチャコンポーネントを設計します。
論文 参考訳(メタデータ) (2025-01-17T01:01:44Z) - A Simple yet Effective Test-Time Adaptation for Zero-Shot Monocular Metric Depth Estimation [46.037640130193566]
センサや低分解能LiDARなどの技術によって提供される3Dポイントや、IMUが提示したポーズによる構造移動を用いて、奥行きの予測を再現する新しい手法を提案する。
実験では, ゼロショット単角距離推定法, 微調整法と比較しての競合性, 深度補修法よりも頑健さが向上した。
論文 参考訳(メタデータ) (2024-12-18T17:50:15Z) - Enhanced Encoder-Decoder Architecture for Accurate Monocular Depth Estimation [0.0]
本稿では、インセプション-ResNet-v2モデルがエンコーダとして機能する拡張エンコーダ-デコーダアーキテクチャを用いた、新しいディープラーニングベースのアプローチを提案する。
NYU Depth V2データセットの実験結果によると、我々のモデルは、0.064の絶対相対誤差(ARE)、0.228のルート平均角誤差(RMSE)、89.3%の精度で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-15T13:46:19Z) - SR-Stereo & DAPE: Stepwise Regression and Pre-trained Edges for Practical Stereo Matching [2.8908326904081334]
ドメインの相違を克服する新しい段階的回帰アーキテクチャを提案する。
疎基底真理で新しいドメインを適応するモデルのエッジ認識を高めるために,事前学習エッジ(DAPE)に基づくドメイン適応を提案する。
提案したSR-StereoとDAPEは,SceneFlow,KITTI,Middbury 2014,ETH3Dで広く評価されている。
論文 参考訳(メタデータ) (2024-06-11T05:25:25Z) - Stealing Stable Diffusion Prior for Robust Monocular Depth Estimation [33.140210057065644]
本稿では, 単分子深度推定に先立って, ステアリング安定拡散 (SSD) という新しい手法を提案する。
このアプローチは、安定拡散を利用して、挑戦的な条件を模倣した合成画像を生成することにより、この制限に対処する。
このアプローチの有効性は、nuScenesとOxford RobotCarで評価されている。
論文 参考訳(メタデータ) (2024-03-08T05:06:31Z) - PatchFusion: An End-to-End Tile-Based Framework for High-Resolution
Monocular Metric Depth Estimation [47.53810786827547]
単一画像深度推定はコンピュータビジョンと生成モデルの基本課題である。
PatchFusionは3つのキーコンポーネントを持つタイルベースの新しいフレームワークで、最先端技術を改善する。
UnrealStereo4K、MVS-Synth、Middleburry 2014の実験は、我々のフレームワークが複雑な詳細で高解像度の深度マップを作成できることを実証している。
論文 参考訳(メタデータ) (2023-12-04T19:03:12Z) - Uncertainty Guided Adaptive Warping for Robust and Efficient Stereo
Matching [77.133400999703]
相関に基づくステレオマッチングは優れた性能を達成した。
固定モデルによる現在のメソッドは、さまざまなデータセットで均一に動作しない。
本稿では,ロバストなステレオマッチングのための相関を動的に計算する新しい視点を提案する。
論文 参考訳(メタデータ) (2023-07-26T09:47:37Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Stereo Neural Vernier Caliper [57.187088191829886]
学習に基づくステレオ3Dオブジェクト検出のための新しいオブジェクト中心フレームワークを提案する。
初期3次元立方体推定値から改良された更新を予測する方法の問題に対処する。
提案手法は,KITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-21T14:36:07Z) - SMD-Nets: Stereo Mixture Density Networks [68.56947049719936]
SMD-Nets(Stereo Mixture Density Networks)は、幅広い2Dおよび3Dアーキテクチャに対応したシンプルで効果的な学習フレームワークです。
具体的には,バイモーダル混合密度を出力表現として活用し,不連続近傍の鋭く正確な不一致推定を可能にすることを示す。
我々は8Mpx解像度のステレオペアと現実世界のステレオデータセットからなる、新しい高解像度でリアルな合成ステレオデータセットに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2021-04-08T16:15:46Z) - Consistency Guided Scene Flow Estimation [159.24395181068218]
CGSFは立体映像からの3次元シーン構造と動きの同時再構成のための自己教師型フレームワークである。
提案モデルでは,課題の画像の相違やシーンフローを確実に予測できることを示す。
最先端技術よりも優れた一般化を実現し、目に見えない領域に迅速かつ堅牢に適応する。
論文 参考訳(メタデータ) (2020-06-19T17:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。