論文の概要: Survey on Monocular Metric Depth Estimation
- arxiv url: http://arxiv.org/abs/2501.11841v4
- Date: Tue, 26 Aug 2025 08:10:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 15:23:52.246809
- Title: Survey on Monocular Metric Depth Estimation
- Title(参考訳): 単分子メートル法深度推定に関する調査
- Authors: Jiuling Zhang,
- Abstract要約: 単分子距離推定(MMDE)は絶対スケールの深度マップを生成し、幾何整合性を確保する。
本調査では,幾何に基づく手法から最先端の深層モデルまで,MMDEの進化を概観する。
方法論の進歩は、領域の一般化、境界保存、および合成データと実データの統合を網羅して分析される。
- 参考スコア(独自算出の注目度): 2.436681150766912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular Depth Estimation (MDE) enables spatial understanding, 3D reconstruction, and autonomous navigation, yet deep learning approaches often predict only relative depth without a consistent metric scale. This limitation reduces reliability in applications such as visual SLAM, precise 3D modeling, and view synthesis. Monocular Metric Depth Estimation (MMDE) overcomes this challenge by producing depth maps with absolute scale, ensuring geometric consistency and enabling deployment without additional calibration. This survey reviews the evolution of MMDE, from geometry-based methods to state-of-the-art deep models, with emphasis on the datasets that drive progress. Key benchmarks, including KITTI, NYU-D, ApolloScape, and TartanAir, are examined in terms of modality, scene type, and application domain. Methodological advances are analyzed, covering domain generalization, boundary preservation, and the integration of synthetic and real data. Techniques such as unsupervised and semi-supervised learning, patch-based inference, architectural innovations, and generative modeling are evaluated for their strengths and limitations. By synthesizing current progress, highlighting the importance of high-quality datasets, and identifying open challenges, this survey provides a structured reference for advancing MMDE and supporting its adoption in real-world computer vision systems.
- Abstract(参考訳): 単眼深度推定(MDE)は空間的理解、3次元再構成、自律的なナビゲーションを可能にするが、深層学習アプローチでは、一貫したメートル法スケールなしで相対的な深度しか予測できないことが多い。
この制限により、視覚SLAM、正確な3Dモデリング、ビュー合成などのアプリケーションにおける信頼性が低下する。
モノクロメートル深度推定(MMDE)は、絶対スケールで深度マップを作成し、幾何整合性を確保し、キャリブレーションを加えることなく展開可能にすることで、この課題を克服する。
この調査は、幾何学に基づく手法から最先端の深層モデルまで、MMDEの進化を概観し、進歩を促すデータセットに重点を置いている。
KITTI、NYU-D、ApolloScape、TartanAirといった主要なベンチマークは、モダリティ、シーンタイプ、アプリケーションドメインの観点から調査されている。
方法論の進歩は、領域の一般化、境界保存、および合成データと実データの統合を網羅して分析される。
教師なしおよび半教師付き学習、パッチベースの推論、アーキテクチャの革新、生成的モデリングといったテクニックは、その強みと限界について評価される。
現在の進歩を合成し、高品質なデータセットの重要性を強調し、オープンな課題を特定することにより、この調査は、MMDEを前進させ、現実のコンピュータビジョンシステムにおけるその採用をサポートするための構造化されたリファレンスを提供する。
関連論文リスト
- Towards Depth Foundation Model: Recent Trends in Vision-Based Depth Estimation [75.30238170051291]
深さ推定は3Dコンピュータビジョンの基本課題であり、3D再構成、自由視点レンダリング、ロボティクス、自律運転、AR/VR技術といった応用に不可欠である。
LiDARのようなハードウェアセンサーに依存する従来の方法は、しばしば高コスト、低解像度、環境感度によって制限され、現実のシナリオで適用性を制限する。
ビジョンベースの手法の最近の進歩は有望な代替手段を提供するが、低容量モデルアーキテクチャやドメイン固有の小規模データセットへの依存のため、一般化と安定性の課題に直面している。
論文 参考訳(メタデータ) (2025-07-15T17:59:59Z) - An Online Adaptation Method for Robust Depth Estimation and Visual Odometry in the Open World [16.387434563802532]
多様な新しい環境にオンラインで適応できるビジュアル・オドメトリーシステムの開発を行う。
本研究では,視覚計測システムの出力に基づいて,深度推定モジュールの自己教師型学習を目的とした。
提案手法のロバスト性と一般化能力について,都市,社内データセット,ロボットプラットフォームに対する最先端の学習ベースアプローチと比較した。
論文 参考訳(メタデータ) (2025-04-16T01:48:10Z) - Multi-view Reconstruction via SfM-guided Monocular Depth Estimation [92.89227629434316]
マルチビュー幾何再構成のための新しい手法を提案する。
深度推定プロセスに、より強力なマルチビューであるSfM情報を組み込む。
本手法は, 従来の単分子深度推定法と比較して, 深度推定の精度を著しく向上させる。
論文 参考訳(メタデータ) (2025-03-18T17:54:06Z) - Relative Pose Estimation through Affine Corrections of Monocular Depth Priors [69.59216331861437]
本研究では,独立なアフィン(スケールとシフト)のあいまいさを明示的に考慮した相対ポーズ推定のための3つの解法を開発した。
提案する解法と古典的点ベース解法とエピポーラ制約を組み合わせたハイブリッド推定パイプラインを提案する。
論文 参考訳(メタデータ) (2025-01-09T18:58:30Z) - Self-Supervised Depth Completion Guided by 3D Perception and Geometry
Consistency [17.68427514090938]
本稿では,3次元の知覚的特徴と多視点幾何整合性を利用して,高精度な自己監督深度補完法を提案する。
NYU-Depthv2 と VOID のベンチマークデータセットを用いた実験により,提案モデルが最先端の深度補完性能を実現することを示す。
論文 参考訳(メタデータ) (2023-12-23T14:19:56Z) - Robust Geometry-Preserving Depth Estimation Using Differentiable
Rendering [93.94371335579321]
我々は、余分なデータやアノテーションを必要とせずに、幾何学保存深度を予測するためにモデルを訓練する学習フレームワークを提案する。
包括的な実験は、我々のフレームワークの優れた一般化能力を強調します。
我々の革新的な損失関数は、ドメイン固有のスケール・アンド・シフト係数を自律的に復元するモデルを可能にします。
論文 参考訳(メタデータ) (2023-09-18T12:36:39Z) - Deep Depth Completion: A Survey [26.09557446012222]
我々は、読者が研究動向をよりよく把握し、現在の進歩を明確に理解するのに役立つ総合的な文献レビューを提供する。
ネットワークアーキテクチャ,損失関数,ベンチマークデータセット,学習戦略の設計面から,関連する研究について検討する。
室内および屋外のデータセットを含む,広く使用されている2つのベンチマークデータセットに対して,モデル性能の定量的比較を行った。
論文 参考訳(メタデータ) (2022-05-11T08:24:00Z) - Recovering 3D Human Mesh from Monocular Images: A Survey [49.00136388529404]
単眼画像から人間のポーズと形状を推定することは、コンピュータビジョンにおける長年の問題である。
本調査は, 単分子型3次元メッシュ回収の課題に焦点を当てた。
論文 参考訳(メタデータ) (2022-03-03T18:56:08Z) - Unsupervised Single-shot Depth Estimation using Perceptual
Reconstruction [0.0]
この研究は、生成ニューラルネットワークの分野における最新の進歩を示し、それらを活用して完全に教師なしの単発深度合成を行う。
RGB-to-deepthとdeep-to-RGB転送用の2つのジェネレータを実装し,Wasserstein-1距離と新しい知覚再構成項を用いて同時に最適化した。
本研究で得られた成果は、実世界のアプリケーションにおいて、教師なし単発深度推定の大きな可能性を示している。
論文 参考訳(メタデータ) (2022-01-28T15:11:34Z) - Probabilistic and Geometric Depth: Detecting Objects in Perspective [78.00922683083776]
3次元物体検出は、運転支援システムなどの様々な実用用途で必要とされる重要な機能である。
双眼視やLiDARに頼っている従来の設定に比べて、経済的な解決策として単眼3D検出が注目されているが、それでも満足のいく結果が得られていない。
本稿ではまず,この問題に関する系統的研究を行い,現在の単分子3次元検出問題をインスタンス深度推定問題として単純化できることを考察する。
論文 参考訳(メタデータ) (2021-07-29T16:30:33Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - Recent Advances in Monocular 2D and 3D Human Pose Estimation: A Deep
Learning Perspective [69.44384540002358]
この問題に対処するための包括的で包括的な2D-to-3D視点を提供する。
2014年からの主流とマイルストーンのアプローチを統一フレームワークで分類しています。
また,ポーズ表現スタイル,ベンチマーク,評価指標,一般的なアプローチの定量的評価を要約した。
論文 参考訳(メタデータ) (2021-04-23T11:07:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。