論文の概要: DEFOM-Stereo: Depth Foundation Model Based Stereo Matching
- arxiv url: http://arxiv.org/abs/2501.09466v1
- Date: Thu, 16 Jan 2025 10:59:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:10:11.429036
- Title: DEFOM-Stereo: Depth Foundation Model Based Stereo Matching
- Title(参考訳): DEFOM-Stereo:depth Foundation Model based Stereo Matching
- Authors: Hualie Jiang, Zhiqiang Lou, Laiyan Ding, Rui Xu, Minglang Tan, Wenjie Jiang, Rui Huang,
- Abstract要約: DEFOM-Stereoはモノクローナルディープキューとの堅牢なステレオマッチングを容易にするために構築されている。
DEFOM-Stereoは、ステート・オブ・ザ・アート(SOTA)メソッドでScene Flowデータセットに匹敵するパフォーマンスを持つことが検証されている。
我々のモデルは、個々のベンチマークにおいて、以前のモデルより同時に優れています。
- 参考スコア(独自算出の注目度): 12.22373236061929
- License:
- Abstract: Stereo matching is a key technique for metric depth estimation in computer vision and robotics. Real-world challenges like occlusion and non-texture hinder accurate disparity estimation from binocular matching cues. Recently, monocular relative depth estimation has shown remarkable generalization using vision foundation models. Thus, to facilitate robust stereo matching with monocular depth cues, we incorporate a robust monocular relative depth model into the recurrent stereo-matching framework, building a new framework for depth foundation model-based stereo-matching, DEFOM-Stereo. In the feature extraction stage, we construct the combined context and matching feature encoder by integrating features from conventional CNNs and DEFOM. In the update stage, we use the depth predicted by DEFOM to initialize the recurrent disparity and introduce a scale update module to refine the disparity at the correct scale. DEFOM-Stereo is verified to have comparable performance on the Scene Flow dataset with state-of-the-art (SOTA) methods and notably shows much stronger zero-shot generalization. Moreover, DEFOM-Stereo achieves SOTA performance on the KITTI 2012, KITTI 2015, Middlebury, and ETH3D benchmarks, ranking 1st on many metrics. In the joint evaluation under the robust vision challenge, our model simultaneously outperforms previous models on the individual benchmarks. Both results demonstrate the outstanding capabilities of the proposed model.
- Abstract(参考訳): ステレオマッチングはコンピュータビジョンとロボット工学における計量深度推定の鍵となる手法である。
隠蔽や非テクスチャのような現実世界の課題は、両眼のマッチングの手がかりから正確な不均一性の推定を妨げている。
近年,視覚基礎モデルを用いた単分子相対深度推定が顕著に一般化されている。
そこで, 単分子深度を用いた頑健なステレオマッチングを容易にするために, 単分子相対深度モデルを連続したステレオマッチングフレームワークに組み込み, 深度基礎モデルに基づくステレオマッチングのための新しいフレームワークであるDEFOM-Stereoを構築した。
特徴抽出の段階では,従来のCNNとDEFOMの機能を統合することで,コンテキストとマッチングを組み合わせた特徴エンコーダを構築する。
更新段階では、DEFOMが予測した深さを用いて、繰り返しの格差を初期化し、スケール更新モジュールを導入し、適切なスケールで格差を洗練させる。
DEFOM-Stereoは、ステート・オブ・ザ・アート(SOTA)メソッドでScene Flowデータセットに匹敵する性能を示し、特により強力なゼロショット一般化を示す。
さらに、DEFOM-Stereoは、KITTI 2012、KITTI 2015、Middlebury、ETH3DベンチマークでSOTAのパフォーマンスを達成し、多くのメトリクスで1位にランクインしている。
頑健なビジョン課題に基づく共同評価では,各ベンチマークにおいて,我々のモデルが従来のモデルよりも優れていた。
両結果は,提案モデルの優れた性能を示すものである。
関連論文リスト
- Enhanced Encoder-Decoder Architecture for Accurate Monocular Depth Estimation [0.0]
本稿では、インセプション-ResNet-v2モデルがエンコーダとして機能する拡張エンコーダ-デコーダアーキテクチャを用いた、新しいディープラーニングベースのアプローチを提案する。
NYU Depth V2データセットの実験結果によると、我々のモデルは、0.064の絶対相対誤差(ARE)、0.228のルート平均角誤差(RMSE)、89.3%の精度で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-15T13:46:19Z) - UniTT-Stereo: Unified Training of Transformer for Enhanced Stereo Matching [18.02254687807291]
UniTT-StereoはTransformerベースのステレオアーキテクチャの可能性を最大化する手法である。
UniTT-Stereoの最先端性能は、ETH3D、KITTI 2012、KITTI 2015データセットなどの様々なベンチマークで検証されている。
論文 参考訳(メタデータ) (2024-09-04T09:02:01Z) - Unsupervised Monocular Depth Estimation Based on Hierarchical Feature-Guided Diffusion [21.939618694037108]
教師なし単分子深度推定は、地上の真実を示さずに訓練できるため、広く注目を集めている。
我々は、教師なし単眼深度推定のために、生成ネットワーク間でよく収束する拡散モデルを用いる。
このモデルは深度分布の学習と解釈の能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-06-14T07:31:20Z) - Stealing Stable Diffusion Prior for Robust Monocular Depth Estimation [33.140210057065644]
本稿では, 単分子深度推定に先立って, ステアリング安定拡散 (SSD) という新しい手法を提案する。
このアプローチは、安定拡散を利用して、挑戦的な条件を模倣した合成画像を生成することにより、この制限に対処する。
このアプローチの有効性は、nuScenesとOxford RobotCarで評価されている。
論文 参考訳(メタデータ) (2024-03-08T05:06:31Z) - PatchFusion: An End-to-End Tile-Based Framework for High-Resolution
Monocular Metric Depth Estimation [47.53810786827547]
単一画像深度推定はコンピュータビジョンと生成モデルの基本課題である。
PatchFusionは3つのキーコンポーネントを持つタイルベースの新しいフレームワークで、最先端技術を改善する。
UnrealStereo4K、MVS-Synth、Middleburry 2014の実験は、我々のフレームワークが複雑な詳細で高解像度の深度マップを作成できることを実証している。
論文 参考訳(メタデータ) (2023-12-04T19:03:12Z) - Uncertainty Guided Adaptive Warping for Robust and Efficient Stereo
Matching [77.133400999703]
相関に基づくステレオマッチングは優れた性能を達成した。
固定モデルによる現在のメソッドは、さまざまなデータセットで均一に動作しない。
本稿では,ロバストなステレオマッチングのための相関を動的に計算する新しい視点を提案する。
論文 参考訳(メタデータ) (2023-07-26T09:47:37Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Stereo Neural Vernier Caliper [57.187088191829886]
学習に基づくステレオ3Dオブジェクト検出のための新しいオブジェクト中心フレームワークを提案する。
初期3次元立方体推定値から改良された更新を予測する方法の問題に対処する。
提案手法は,KITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-21T14:36:07Z) - SMD-Nets: Stereo Mixture Density Networks [68.56947049719936]
SMD-Nets(Stereo Mixture Density Networks)は、幅広い2Dおよび3Dアーキテクチャに対応したシンプルで効果的な学習フレームワークです。
具体的には,バイモーダル混合密度を出力表現として活用し,不連続近傍の鋭く正確な不一致推定を可能にすることを示す。
我々は8Mpx解像度のステレオペアと現実世界のステレオデータセットからなる、新しい高解像度でリアルな合成ステレオデータセットに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2021-04-08T16:15:46Z) - Consistency Guided Scene Flow Estimation [159.24395181068218]
CGSFは立体映像からの3次元シーン構造と動きの同時再構成のための自己教師型フレームワークである。
提案モデルでは,課題の画像の相違やシーンフローを確実に予測できることを示す。
最先端技術よりも優れた一般化を実現し、目に見えない領域に迅速かつ堅牢に適応する。
論文 参考訳(メタデータ) (2020-06-19T17:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。