論文の概要: MonoMVSNet: Monocular Priors Guided Multi-View Stereo Network
- arxiv url: http://arxiv.org/abs/2507.11333v1
- Date: Tue, 15 Jul 2025 14:05:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:03.143221
- Title: MonoMVSNet: Monocular Priors Guided Multi-View Stereo Network
- Title(参考訳): MonoMVSNet: Monocular Priors Guided Multi-View Stereo Network
- Authors: Jianfei Jiang, Qiankun Liu, Haochen Yu, Hongyuan Liu, Liyong Wang, Jiansheng Chen, Huimin Ma,
- Abstract要約: 我々は,新しい単分子特徴と深度誘導型MVSネットワークであるMonoMVSNetを提案する。
MonoMVSNetはモノラル基礎モデルから強力な先行情報を多視点幾何学に統合する。
実験により、MonoMVSNetはDTUとTurps-and-Templesデータセット上で最先端のパフォーマンスを達成することが示された。
- 参考スコア(独自算出の注目度): 15.138039805633353
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning-based Multi-View Stereo (MVS) methods aim to predict depth maps for a sequence of calibrated images to recover dense point clouds. However, existing MVS methods often struggle with challenging regions, such as textureless regions and reflective surfaces, where feature matching fails. In contrast, monocular depth estimation inherently does not require feature matching, allowing it to achieve robust relative depth estimation in these regions. To bridge this gap, we propose MonoMVSNet, a novel monocular feature and depth guided MVS network that integrates powerful priors from a monocular foundation model into multi-view geometry. Firstly, the monocular feature of the reference view is integrated into source view features by the attention mechanism with a newly designed cross-view position encoding. Then, the monocular depth of the reference view is aligned to dynamically update the depth candidates for edge regions during the sampling procedure. Finally, a relative consistency loss is further designed based on the monocular depth to supervise the depth prediction. Extensive experiments demonstrate that MonoMVSNet achieves state-of-the-art performance on the DTU and Tanks-and-Temples datasets, ranking first on the Tanks-and-Temples Intermediate and Advanced benchmarks. The source code is available at https://github.com/JianfeiJ/MonoMVSNet.
- Abstract(参考訳): 学習型Multi-View Stereo (MVS) 法は,高密度点雲を復元するための校正画像列の深度マップの予測を目的としている。
しかし、既存のMVS手法は、テクスチャレス領域や反射面のような、特徴マッチングが失敗する困難な領域としばしば競合する。
対照的に、単分子深度推定は本質的に特徴マッチングを必要としないため、これらの領域で頑健な相対深度推定を実現することができる。
このギャップを埋めるために,モノクラー基礎モデルからマルチビュー幾何への強力な先行情報を統合する新しいモノクラー特徴と深度誘導型MVSネットワークであるMonoMVSNetを提案する。
まず、新たに設計されたクロスビュー位置符号化を備えたアテンション機構により、参照ビューの単眼的特徴をソースビュー特徴に統合する。
そして、基準ビューの単眼深度を調整し、サンプリング手順中にエッジ領域の深度候補を動的に更新する。
最後に、深度予測を監督するために、単分子深度に基づいて相対的整合損失を更に設計する。
大規模な実験では、MonoMVSNetがDTUとTants-and-Templesデータセットで最先端のパフォーマンスを実現し、Tants-and-Temples IntermediateとAdvancedベンチマークで第1位にランクインしている。
ソースコードはhttps://github.com/JianfeiJ/MonoMVSNetで入手できる。
関連論文リスト
- MonoInstance: Enhancing Monocular Priors via Multi-view Instance Alignment for Neural Rendering and Reconstruction [45.70946415376022]
単分子深度は3次元再構成や新しいビュー合成といった多視点タスクにおいてニューラルレンダリングによって広く採用されている。
現在の手法では、推定深度マップ全体を無差別に扱い、地上の真実の監督として利用している。
モノインスタンス(MonoInstance)は,モノクラー深度の不確かさを探索し,拡張された幾何学的事前情報を提供する一般手法である。
論文 参考訳(メタデータ) (2025-03-24T05:58:06Z) - Multi-view Reconstruction via SfM-guided Monocular Depth Estimation [92.89227629434316]
マルチビュー幾何再構成のための新しい手法を提案する。
深度推定プロセスに、より強力なマルチビューであるSfM情報を組み込む。
本手法は, 従来の単分子深度推定法と比較して, 深度推定の精度を著しく向上させる。
論文 参考訳(メタデータ) (2025-03-18T17:54:06Z) - Monocular Visual-Inertial Depth Estimation [66.71452943981558]
単眼深度推定と視覚慣性計測を統合した視覚慣性深度推定パイプラインを提案する。
提案手法は, 疎度度に対する大域的スケールとシフトアライメントを行い, 続いて学習に基づく高密度アライメントを行う。
本研究では,TartanAir と VOID のデータセットを用いて,密集したスケールアライメントによるRMSE の最大30%の削減を観測した。
論文 参考訳(メタデータ) (2023-03-21T18:47:34Z) - Crafting Monocular Cues and Velocity Guidance for Self-Supervised
Multi-Frame Depth Learning [22.828829870704006]
自己監督単分子法は、弱いテクスチャ面や反射物体の深度情報を効率的に学習することができる。
対照的に、マルチフレーム深度推定法は、マルチビューステレオの成功により、深度精度を向上させる。
我々は,MOVEDepthを提案する。MOn Eye cues と VE ガイダンスを利用して,多フレーム深度学習を改善する。
論文 参考訳(メタデータ) (2022-08-19T06:32:06Z) - Improving Monocular Visual Odometry Using Learned Depth [84.05081552443693]
単眼深度推定を応用して視力計測(VO)を改善する枠組みを提案する。
我々のフレームワークの中核は、多様なシーンに対して強力な一般化能力を持つ単眼深度推定モジュールである。
現在の学習型VO法と比較して,本手法は多様なシーンに対してより強力な一般化能力を示す。
論文 参考訳(メタデータ) (2022-04-04T06:26:46Z) - A Confidence-based Iterative Solver of Depths and Surface Normals for
Deep Multi-view Stereo [41.527018997251744]
本研究では,深度,表面正規度,視野ごとの信頼度を共同で予測する深層多視点ステレオ(MVS)システムを提案する。
我々のアプローチの鍵は、ビューごとの深度マップと正規写像に対して反復的に解決する新しい解法である。
提案手法は,従来型および深層学習に基づくMVSパイプラインの深部品質を継続的に向上する。
論文 参考訳(メタデータ) (2022-01-19T14:08:45Z) - TANDEM: Tracking and Dense Mapping in Real-time using Deep Multi-view
Stereo [55.30992853477754]
本稿では,リアルタイムな単分子追跡と高密度フレームワークであるTANDEMを紹介する。
ポーズ推定のために、TANDEMはアライメントのスライディングウィンドウに基づいて光度バンドル調整を行う。
TANDEMは最先端のリアルタイム3D再構成性能を示す。
論文 参考訳(メタデータ) (2021-11-14T19:01:02Z) - Pseudo RGB-D for Self-Improving Monocular SLAM and Depth Prediction [72.30870535815258]
モノクロ深度予測のためのCNNは、周囲の環境の3Dマップを構築するための2つの大きく不連続なアプローチを表している。
本稿では,CNN予測深度を利用してRGB-D特徴量に基づくSLAMを行う,狭義の広義の自己改善フレームワークを提案する。
一方、より原理化された幾何学的SLAMの3次元シーン構造とカメラポーズは、新しい広義のベースライン損失により奥行きネットワークに注入される。
論文 参考訳(メタデータ) (2020-04-22T16:31:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。