論文の概要: Stereo Anywhere: Robust Zero-Shot Deep Stereo Matching Even Where Either Stereo or Mono Fail
- arxiv url: http://arxiv.org/abs/2412.04472v1
- Date: Thu, 05 Dec 2024 18:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:40:20.212572
- Title: Stereo Anywhere: Robust Zero-Shot Deep Stereo Matching Even Where Either Stereo or Mono Fail
- Title(参考訳): Stereo Anywhere: ゼロショットのDeep Stereo Matchingは、StereoとMonoのどちらが失敗したとしても使える
- Authors: Luca Bartolomei, Fabio Tosi, Matteo Poggi, Stefano Mattoccia,
- Abstract要約: 我々はStereo Anywhereを紹介した。これは、幾何学的制約と単眼深度視覚基礎モデル(VFM)の頑健な先行性を組み合わせた新しいステレオマッチングフレームワークである。
合成専用学習モデルでは, ゼロショットの一般化が実現し, 既存の解よりも優れていた。
- 参考スコア(独自算出の注目度): 37.90622613373521
- License:
- Abstract: We introduce Stereo Anywhere, a novel stereo-matching framework that combines geometric constraints with robust priors from monocular depth Vision Foundation Models (VFMs). By elegantly coupling these complementary worlds through a dual-branch architecture, we seamlessly integrate stereo matching with learned contextual cues. Following this design, our framework introduces novel cost volume fusion mechanisms that effectively handle critical challenges such as textureless regions, occlusions, and non-Lambertian surfaces. Through our novel optical illusion dataset, MonoTrap, and extensive evaluation across multiple benchmarks, we demonstrate that our synthetic-only trained model achieves state-of-the-art results in zero-shot generalization, significantly outperforming existing solutions while showing remarkable robustness to challenging cases such as mirrors and transparencies.
- Abstract(参考訳): Stereo Anywhereは、幾何学的制約とモノクロ深度視覚基礎モデル(VFM)の頑健な先行性を組み合わせた、新しいステレオマッチングフレームワークである。
これらの相補的世界を二重ブランチアーキテクチャでエレガントに結合することにより、学習した文脈的手がかりとステレオマッチングをシームレスに統合する。
この設計の後、我々は、テクスチャレス領域、オクルージョン、非ランベルト面などの重要な課題を効果的に処理する新しいコスト体積融合機構を導入する。
我々は、新しい光学錯視データセット、MonoTrap、および複数のベンチマークにおける広範囲な評価を通じて、我々の合成専用トレーニングモデルがゼロショットの一般化において最先端の結果を達成し、既存のソリューションを著しく上回り、ミラーや透明性といった課題に対して顕著な堅牢性を示すことを実証した。
関連論文リスト
- FoundationStereo: Zero-Shot Stereo Matching [50.79202911274819]
FoundationStereoはステレオ深度推定の基礎モデルである。
まず,大規模(1Mステレオペア)合成学習データセットを構築した。
その後、スケーラビリティを高めるために、多数のネットワークアーキテクチャコンポーネントを設計します。
論文 参考訳(メタデータ) (2025-01-17T01:01:44Z) - DEFOM-Stereo: Depth Foundation Model Based Stereo Matching [12.22373236061929]
DEFOM-Stereoはモノクローナルディープキューとの堅牢なステレオマッチングを容易にするために構築されている。
DEFOM-Stereoは、ステート・オブ・ザ・アート(SOTA)メソッドでScene Flowデータセットに匹敵するパフォーマンスを持つことが検証されている。
我々のモデルは、個々のベンチマークにおいて、以前のモデルより同時に優れています。
論文 参考訳(メタデータ) (2025-01-16T10:59:29Z) - Stereo Anything: Unifying Stereo Matching with Large-Scale Mixed Data [26.029499450825092]
我々は、ロバストなステレオマッチングのためのソリューションであるStereoAnythingを紹介する。
ラベル付きステレオ画像を収集し,ラベル付きモノクロ画像から合成ステレオペアを生成することにより,データセットをスケールアップする。
5つの公開データセット上で,モデルのゼロショット能力を広範囲に評価した。
論文 参考訳(メタデータ) (2024-11-21T11:59:04Z) - Generalizable Novel-View Synthesis using a Stereo Camera [21.548844864282994]
本稿では,多視点ステレオカメラ画像を対象とした,最初の一般化可能なビュー合成手法を提案する。
高品質な幾何再構成のための新規ビュー合成にステレオマッチングを導入する。
実験により、StereoNeRFは、一般化可能なビュー合成において、従来のアプローチを超越していることが示された。
論文 参考訳(メタデータ) (2024-04-21T05:39:44Z) - Multi-scale Alternated Attention Transformer for Generalized Stereo
Matching [7.493797166406228]
両視野および単一視野におけるエピポーラ線の影響のバランスをとるために,Alternated Attention U-shaped Transformer (AAUformer) と呼ばれる簡易かつ高効率なネットワークを提案する。
他のモデルと比較して、我々のモデルはいくつかの主要な設計を持っている。
我々はいくつかの主流ステレオマッチングデータセットについて比較研究とアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-08-06T08:22:39Z) - Single-View View Synthesis with Self-Rectified Pseudo-Stereo [49.946151180828465]
疑似ステレオ視点を生成する前に、信頼性と明示的なステレオを利用する。
本稿では,自己修正ステレオ合成法を提案する。
本手法は,最先端の単一ビュービュー合成法およびステレオ合成法より優れる。
論文 参考訳(メタデータ) (2023-04-19T09:36:13Z) - SGM3D: Stereo Guided Monocular 3D Object Detection [62.11858392862551]
SGM3Dと呼ばれるステレオ誘導単分子物体検出ネットワークを提案する。
ステレオ画像から抽出したロバストな3次元特徴を利用して、モノクル画像から得られた特徴を強化する。
本手法は,余分な計算コストを伴わずに性能を向上させるために,他の多くの単分子的手法に統合することができる。
論文 参考訳(メタデータ) (2021-12-03T13:57:14Z) - SMD-Nets: Stereo Mixture Density Networks [68.56947049719936]
SMD-Nets(Stereo Mixture Density Networks)は、幅広い2Dおよび3Dアーキテクチャに対応したシンプルで効果的な学習フレームワークです。
具体的には,バイモーダル混合密度を出力表現として活用し,不連続近傍の鋭く正確な不一致推定を可能にすることを示す。
我々は8Mpx解像度のステレオペアと現実世界のステレオデータセットからなる、新しい高解像度でリアルな合成ステレオデータセットに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2021-04-08T16:15:46Z) - Reversing the cycle: self-supervised deep stereo through enhanced
monocular distillation [51.714092199995044]
多くの分野において、自己教師付き学習ソリューションは急速に進化し、教師付きアプローチでギャップを埋めている。
本稿では,両者の相互関係を逆転する自己教師型パラダイムを提案する。
深層ステレオネットワークを訓練するために,単分子完備ネットワークを通じて知識を抽出する。
論文 参考訳(メタデータ) (2020-08-17T07:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。