論文の概要: OmniDepth: Bridging Monocular and Stereo Reasoning with Latent Alignment
- arxiv url: http://arxiv.org/abs/2508.04611v1
- Date: Wed, 06 Aug 2025 16:31:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.825095
- Title: OmniDepth: Bridging Monocular and Stereo Reasoning with Latent Alignment
- Title(参考訳): OmniDepth: 遅延アライメントによる単分子およびステレオ推論
- Authors: Tongfan Guan, Jiaxin Guo, Chen Wang, Yun-Hui Liu,
- Abstract要約: OmniDepthはモノクロおよびステレオのアプローチを3次元推定にブリッジする統合フレームワークである。
その中核として、新しいクロスアテンタティブアライメント機構は、ステレオ仮説表現とモノクロコンテキストキューを動的に同期させる。
この相互アライメントは、立体幾何学で単分子の深さを精製しながら単分子構造を前もって注入することにより、立体の曖昧さ(例えば、特異面)を解消する。
- 参考スコア(独自算出の注目度): 31.118114556998048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular and stereo depth estimation offer complementary strengths: monocular methods capture rich contextual priors but lack geometric precision, while stereo approaches leverage epipolar geometry yet struggle with ambiguities such as reflective or textureless surfaces. Despite post-hoc synergies, these paradigms remain largely disjoint in practice. We introduce OmniDepth, a unified framework that bridges both through iterative bidirectional alignment of their latent representations. At its core, a novel cross-attentive alignment mechanism dynamically synchronizes monocular contextual cues with stereo hypothesis representations during stereo reasoning. This mutual alignment resolves stereo ambiguities (e.g., specular surfaces) by injecting monocular structure priors while refining monocular depth with stereo geometry within a single network. Extensive experiments demonstrate state-of-the-art results: \textbf{OmniDepth reduces zero-shot generalization error by $\!>\!40\%$ on Middlebury and ETH3D}, while addressing longstanding failures on transparent and reflective surfaces. By harmonizing multi-view geometry with monocular context, OmniDepth enables robust 3D perception that transcends modality-specific limitations. Codes available at https://github.com/aeolusguan/OmniDepth.
- Abstract(参考訳): 単分子的手法は豊かな文脈の先行を捉えるが、幾何学的精度は欠くが、ステレオ的手法はエピポーラ幾何学を利用するが、反射やテクスチャのない表面のような曖昧さに苦しむ。
ポストホックのシナジーにもかかわらず、これらのパラダイムは実際にはほとんど相容れないままである。
我々はOmniDepthについて紹介する。OmniDepthは、潜在表現の反復的双方向アライメントを通じて両方をブリッジする統合フレームワークである。
その中核となるのが、新しいクロスアテンタティブアライメント機構であり、ステレオ推論中に単眼の文脈キューとステレオ仮説表現を動的に同期させるものである。
この相互アライメントは、単分子構造を前もって注入し、単分子構造を1つのネットワーク内で立体幾何学で精製することで、ステレオの曖昧さ(例えば、特異面)を解消する。
拡大実験は、最先端の結果を示す: \textbf{OmniDepthはゼロショットの一般化誤差を$\!
>\!
40\%$ on Middlebury and ETH3D} は、透明で反射的な表面上の長年の障害に対処する。
OmniDepthはマルチビュー幾何とモノクロコンテキストを調和させることで、モダリティ固有の制限を超越する堅牢な3D知覚を可能にする。
コードはhttps://github.com/aeolusguan/OmniDepth.comで公開されている。
関連論文リスト
- Boosting Omnidirectional Stereo Matching with a Pre-trained Depth Foundation Model [62.37493746544967]
カメラベースの設定は、立体深度推定を用いて高解像度の高解像度深度マップを生成することで、コスト効率のよい選択肢を提供する。
既存の全方位ステレオマッチング手法は、様々な環境において限られた深度精度しか達成できない。
DFI-OmniStereoは, 大規模事前学習基礎モデルを用いて, 相対的な単眼深度推定を行う新しい全方位ステレオマッチング法である。
論文 参考訳(メタデータ) (2025-03-30T16:24:22Z) - MonoInstance: Enhancing Monocular Priors via Multi-view Instance Alignment for Neural Rendering and Reconstruction [45.70946415376022]
単分子深度は3次元再構成や新しいビュー合成といった多視点タスクにおいてニューラルレンダリングによって広く採用されている。
現在の手法では、推定深度マップ全体を無差別に扱い、地上の真実の監督として利用している。
モノインスタンス(MonoInstance)は,モノクラー深度の不確かさを探索し,拡張された幾何学的事前情報を提供する一般手法である。
論文 参考訳(メタデータ) (2025-03-24T05:58:06Z) - Stereo Anywhere: Robust Zero-Shot Deep Stereo Matching Even Where Either Stereo or Mono Fail [37.90622613373521]
我々はStereo Anywhereを紹介した。これは、幾何学的制約と単眼深度視覚基礎モデル(VFM)の頑健な先行性を組み合わせた新しいステレオマッチングフレームワークである。
合成専用学習モデルでは, ゼロショットの一般化が実現し, 既存の解よりも優れていた。
論文 参考訳(メタデータ) (2024-12-05T18:59:58Z) - Single-View View Synthesis with Self-Rectified Pseudo-Stereo [49.946151180828465]
疑似ステレオ視点を生成する前に、信頼性と明示的なステレオを利用する。
本稿では,自己修正ステレオ合成法を提案する。
本手法は,最先端の単一ビュービュー合成法およびステレオ合成法より優れる。
論文 参考訳(メタデータ) (2023-04-19T09:36:13Z) - Bridging Stereo Geometry and BEV Representation with Reliable Mutual Interaction for Semantic Scene Completion [45.171150395915056]
3Dセマンティックシーン補完(SSC)は、限られた観測から密集した3Dシーンを推定する必要がある不適切な認識課題である。
従来のカメラベースの手法は、固有の幾何学的曖昧さと不完全な観察のため、正確なセマンティックシーンを予測するのに苦労した。
我々は,SSCにおけるステレオマッチング技術と鳥眼ビュー(BEV)表現学習を利用して,そのような問題に対処する。
論文 参考訳(メタデータ) (2023-03-24T12:33:44Z) - Self-Supervised Depth Estimation in Laparoscopic Image using 3D
Geometric Consistency [7.902636435901286]
立体対に隠された3次元構造情報を利用する自己教師型深度推定器M3Depthを提案する。
提案手法は,公開データセットと新たに取得したデータセットの両方において,従来の自己教師型アプローチよりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-08-17T17:03:48Z) - PanoDepth: A Two-Stage Approach for Monocular Omnidirectional Depth
Estimation [11.66493799838823]
一方向単分子深度推定のための新しいモデルに依存しない2段階パイプラインを提案する。
筆者らのフレームワークであるPanoDepthは、360度画像を入力として、第1段階で1つ以上の合成されたビューを生成し、原画像と合成されたイメージをその後のステレオマッチングステージに供給する。
以上の結果から,PanoDepthは360度単分子深度推定において,最先端のアプローチよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-02-02T23:08:06Z) - SMD-Nets: Stereo Mixture Density Networks [68.56947049719936]
SMD-Nets(Stereo Mixture Density Networks)は、幅広い2Dおよび3Dアーキテクチャに対応したシンプルで効果的な学習フレームワークです。
具体的には,バイモーダル混合密度を出力表現として活用し,不連続近傍の鋭く正確な不一致推定を可能にすることを示す。
我々は8Mpx解像度のステレオペアと現実世界のステレオデータセットからなる、新しい高解像度でリアルな合成ステレオデータセットに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2021-04-08T16:15:46Z) - Reversing the cycle: self-supervised deep stereo through enhanced
monocular distillation [51.714092199995044]
多くの分野において、自己教師付き学習ソリューションは急速に進化し、教師付きアプローチでギャップを埋めている。
本稿では,両者の相互関係を逆転する自己教師型パラダイムを提案する。
深層ステレオネットワークを訓練するために,単分子完備ネットワークを通じて知識を抽出する。
論文 参考訳(メタデータ) (2020-08-17T07:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。