論文の概要: MonSter++: Unified Stereo Matching, Multi-view Stereo, and Real-time Stereo with Monodepth Priors
- arxiv url: http://arxiv.org/abs/2501.08643v2
- Date: Thu, 25 Sep 2025 06:51:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 16:29:06.311934
- Title: MonSter++: Unified Stereo Matching, Multi-view Stereo, and Real-time Stereo with Monodepth Priors
- Title(参考訳): MonSter++: 統合ステレオマッチング、マルチビューステレオ、Monodepth以前のリアルタイムステレオ
- Authors: Junda Cheng, Wenjing Liao, Zhipeng Cai, Longliang Liu, Gangwei Xu, Xianqi Wang, Yuzhou Wang, Zikang Yuan, Yong Deng, Jinliang Zang, Yangyang Shi, Jinhui Tang, Xin Yang,
- Abstract要約: MonSter++は多視点深度推定の基礎モデルである。
多視点深度推定に単眼深度推定を組み込む。
MonSter++はステレオマッチングとマルチビューステレオの両方で新しい最先端を実現する。
- 参考スコア(独自算出の注目度): 52.39201779505421
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce MonSter++, a geometric foundation model for multi-view depth estimation, unifying rectified stereo matching and unrectified multi-view stereo. Both tasks fundamentally recover metric depth from correspondence search and consequently face the same dilemma: struggling to handle ill-posed regions with limited matching cues. To address this, we propose MonSter++, a novel method that integrates monocular depth priors into multi-view depth estimation, effectively combining the complementary strengths of single-view and multi-view cues. MonSter++ fuses monocular depth and multi-view depth into a dual-branched architecture. Confidence-based guidance adaptively selects reliable multi-view cues to correct scale ambiguity in monocular depth. The refined monocular predictions, in turn, effectively guide multi-view estimation in ill-posed regions. This iterative mutual enhancement enables MonSter++ to evolve coarse object-level monocular priors into fine-grained, pixel-level geometry, fully unlocking the potential of multi-view depth estimation. MonSter++ achieves new state-of-the-art on both stereo matching and multi-view stereo. By effectively incorporating monocular priors through our cascaded search and multi-scale depth fusion strategy, our real-time variant RT-MonSter++ also outperforms previous real-time methods by a large margin. As shown in Fig.1, MonSter++ achieves significant improvements over previous methods across eight benchmarks from three tasks -- stereo matching, real-time stereo matching, and multi-view stereo, demonstrating the strong generality of our framework. Besides high accuracy, MonSter++ also demonstrates superior zero-shot generalization capability. We will release both the large and the real-time models to facilitate their use by the open-source community.
- Abstract(参考訳): 我々は,多視点深度推定のための幾何学的基礎モデルであるMonSter++を紹介した。
どちらのタスクも、基本的には対応探索からメートル法深度を回復し、結果として同じジレンマに直面します。
これを解決するために,単眼深度を多視点深度推定に統合し,単眼深度と多眼深度の相補的長所を効果的に組み合わせたMonSter++を提案する。
MonSter++はモノクロ深度とマルチビュー深度を二重ブランチアーキテクチャに融合する。
信頼に基づくガイダンスは、単眼深度におけるあいまいさを補正するために、信頼性の高いマルチビューキューを適応的に選択する。
洗練された単分子予測は、不測の領域における多視点推定を効果的に導く。
この反復的相互拡張により、MonSter++は、粗いオブジェクトレベルのモノクル先行値を細粒度でピクセルレベルの幾何学に進化させ、マルチビュー深度推定の可能性を完全に解き放つことができる。
MonSter++はステレオマッチングとマルチビューステレオの両方で新しい最先端を実現する。
実時間変種RT-MonSter++は,ケースドサーチとマルチスケール深度融合戦略を通じて,モノクル先行を効果的に組み込むことで,従来のリアルタイムメソッドよりも大きなマージンで性能を向上する。
図1に示すように、MonSter++はステレオマッチング、リアルタイムステレオマッチング、マルチビューステレオという3つのタスクから8つのベンチマークで前のメソッドよりも大幅に改善されている。
MonSter++は高い精度に加えて、ゼロショットの一般化能力も優れている。
オープンソースコミュニティでの使用を促進するため、大きなモデルとリアルタイムモデルの両方をリリースします。
関連論文リスト
- OmniDepth: Bridging Monocular and Stereo Reasoning with Latent Alignment [31.118114556998048]
OmniDepthはモノクロおよびステレオのアプローチを3次元推定にブリッジする統合フレームワークである。
その中核として、新しいクロスアテンタティブアライメント機構は、ステレオ仮説表現とモノクロコンテキストキューを動的に同期させる。
この相互アライメントは、立体幾何学で単分子の深さを精製しながら単分子構造を前もって注入することにより、立体の曖昧さ(例えば、特異面)を解消する。
論文 参考訳(メタデータ) (2025-08-06T16:31:22Z) - MonoMVSNet: Monocular Priors Guided Multi-View Stereo Network [15.138039805633353]
我々は,新しい単分子特徴と深度誘導型MVSネットワークであるMonoMVSNetを提案する。
MonoMVSNetはモノラル基礎モデルから強力な先行情報を多視点幾何学に統合する。
実験により、MonoMVSNetはDTUとTurps-and-Templesデータセット上で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-07-15T14:05:22Z) - Diving into the Fusion of Monocular Priors for Generalized Stereo Matching [27.15757281613792]
近年,視覚基礎モデル (VFM) に先立って, 偏りのない単分子を応用して, 不測領域の一般化を向上することで, ステレオマッチングが進展している。
本稿では,深度マップを二項相対形式に変換する融合を導くための二項局所順序付けマップを提案する。
また、画素単位の線形回帰モジュールがそれらをグローバルかつ適応的に整列できるような登録問題として、単分子深度を不均質に最終的に直接融合させることを定式化する。
論文 参考訳(メタデータ) (2025-05-20T14:27:45Z) - Boosting Omnidirectional Stereo Matching with a Pre-trained Depth Foundation Model [62.37493746544967]
カメラベースの設定は、立体深度推定を用いて高解像度の高解像度深度マップを生成することで、コスト効率のよい選択肢を提供する。
既存の全方位ステレオマッチング手法は、様々な環境において限られた深度精度しか達成できない。
DFI-OmniStereoは, 大規模事前学習基礎モデルを用いて, 相対的な単眼深度推定を行う新しい全方位ステレオマッチング法である。
論文 参考訳(メタデータ) (2025-03-30T16:24:22Z) - Mono2Stereo: A Benchmark and Empirical Study for Stereo Conversion [88.67015254278859]
ステレオ変換の詳細な探索を支援するため,高品質なトレーニングデータとベンチマークを提供するMono2Stereoデータセットを紹介した。
1) 左右のビューの違いは微妙であるが、既存のメトリクスでは全体のピクセルを考慮し、ステレオ効果に批判的な領域に集中できない。
本稿では, ステレオ効果に関する人間の判断と高い相関性が得られる新しい評価指標, Stereo Intersection-over-Union を提案する。
論文 参考訳(メタデータ) (2025-03-28T09:25:58Z) - Helvipad: A Real-World Dataset for Omnidirectional Stereo Depth Estimation [83.841877607646]
全方位ステレオ深度推定のための実世界のデータセットであるHelvipadを紹介する。
このデータセットは、3Dポイント雲を等方形画像に投影することで、正確な深度と不均質のラベルを含む。
標準画像と全方位画像のステレオ深度推定モデルをベンチマークする。
論文 参考訳(メタデータ) (2024-11-27T13:34:41Z) - GasMono: Geometry-Aided Self-Supervised Monocular Depth Estimation for
Indoor Scenes [47.76269541664071]
本稿では,フレームと低テクスチャの大きな回転に起因する屋内シーンにおける自己教師型単眼深度推定の課題に対処する。
モノクラーシーケンスから粗いカメラポーズを多視点形状で取得し,前者に対応する。
低テクスチャの効果を和らげるために、視覚変換器のグローバルな推論と過度に適合する反復的な自己蒸留機構を組み合わせる。
論文 参考訳(メタデータ) (2023-09-26T17:59:57Z) - Bridging Stereo Geometry and BEV Representation with Reliable Mutual Interaction for Semantic Scene Completion [45.171150395915056]
3Dセマンティックシーン補完(SSC)は、限られた観測から密集した3Dシーンを推定する必要がある不適切な認識課題である。
従来のカメラベースの手法は、固有の幾何学的曖昧さと不完全な観察のため、正確なセマンティックシーンを予測するのに苦労した。
我々は,SSCにおけるステレオマッチング技術と鳥眼ビュー(BEV)表現学習を利用して,そのような問題に対処する。
論文 参考訳(メタデータ) (2023-03-24T12:33:44Z) - 2T-UNET: A Two-Tower UNet with Depth Clues for Robust Stereo Depth
Estimation [0.2578242050187029]
本稿では, 単純な2-tower畳み込みニューラルネットワークを用いて, 明示的なステレオマッチングを回避し, 深度推定問題を再検討する。
提案アルゴリズムは2T-UNetと呼ばれる。
アーキテクチャは複雑な自然のシーンで驚くほどよく機能し、様々なリアルタイムアプリケーションにその有用性を強調します。
論文 参考訳(メタデータ) (2022-10-27T12:34:41Z) - DSGN++: Exploiting Visual-Spatial Relation forStereo-based 3D Detectors [60.88824519770208]
カメラベースの3Dオブジェクト検出器は、LiDARセンサーよりも広い展開と低価格のため歓迎されている。
我々は3次元幾何学と意味論の両方を表現するステレオボリューム構造について、以前のステレオモデリングDSGNを再考する。
本稿では,2次元から3次元のパイプラインを通しての情報フローを改善することを目的としたDSGN++を提案する。
論文 参考訳(メタデータ) (2022-04-06T18:43:54Z) - H-Net: Unsupervised Attention-based Stereo Depth Estimation Leveraging
Epipolar Geometry [4.968452390132676]
本稿では,教師なしステレオ深度推定のためのディープラーニングフレームワークであるH-Netを紹介する。
初めて、Siameseオートエンコーダアーキテクチャが深さ推定に使用されます。
本手法は,最先端の非監視ステレオ深度推定法を上回っている。
論文 参考訳(メタデータ) (2021-04-22T19:16:35Z) - SMD-Nets: Stereo Mixture Density Networks [68.56947049719936]
SMD-Nets(Stereo Mixture Density Networks)は、幅広い2Dおよび3Dアーキテクチャに対応したシンプルで効果的な学習フレームワークです。
具体的には,バイモーダル混合密度を出力表現として活用し,不連続近傍の鋭く正確な不一致推定を可能にすることを示す。
我々は8Mpx解像度のステレオペアと現実世界のステレオデータセットからなる、新しい高解像度でリアルな合成ステレオデータセットに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2021-04-08T16:15:46Z) - Reversing the cycle: self-supervised deep stereo through enhanced
monocular distillation [51.714092199995044]
多くの分野において、自己教師付き学習ソリューションは急速に進化し、教師付きアプローチでギャップを埋めている。
本稿では,両者の相互関係を逆転する自己教師型パラダイムを提案する。
深層ステレオネットワークを訓練するために,単分子完備ネットワークを通じて知識を抽出する。
論文 参考訳(メタデータ) (2020-08-17T07:40:22Z) - Increased-Range Unsupervised Monocular Depth Estimation [8.105699831214608]
そこで本研究では,小規模・広範囲のベースラインの利点を統合することを提案する。
3つの水平方向のビューを用いてネットワークをトレーニングすることにより、近距離と遠距離の両方で正確な深度予測が得られる。
我々の戦略は、単一の画像から複数のベースライン深さを推定できる。
論文 参考訳(メタデータ) (2020-06-23T07:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。