論文の概要: Survey on Monocular Metric Depth Estimation
- arxiv url: http://arxiv.org/abs/2501.11841v3
- Date: Thu, 10 Apr 2025 03:18:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 15:12:48.996461
- Title: Survey on Monocular Metric Depth Estimation
- Title(参考訳): 単分子メートル法深度推定に関する調査
- Authors: Jiuling Zhang,
- Abstract要約: 深層学習法は通常、1つの画像から相対的な深さを推定するが、計量スケールの欠如はしばしば幾何学的矛盾をもたらす。
単分子距離推定(MMDE)は、絶対スケールで深度マップを作成することでこの問題に対処する。
本稿では,従来の幾何学的アプローチから現代ディープラーニングモデルへの進化を追究する,深度推定手法に関する構造化された調査を行う。
- 参考スコア(独自算出の注目度): 0.9790236766474202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular Depth Estimation (MDE) is a core task in computer vision that enables spatial understanding, 3D reconstruction, and autonomous navigation. Deep learning methods typically estimate relative depth from a single image, but the lack of metric scale often leads to geometric inconsistencies. This limitation severely impacts applications such as visual SLAM, detailed 3D modeling, and novel view synthesis. Monocular Metric Depth Estimation (MMDE) addresses this issue by producing depth maps with absolute scale, ensuring frame-to-frame consistency and supporting direct deployment without scale calibration. This paper presents a structured survey of depth estimation methods, tracing the evolution from traditional geometry-based approaches to modern deep learning models. Recent progress in MMDE is analyzed, with a focus on two key challenges: poor generalization and blurred object boundaries. To tackle these problems, researchers have explored various strategies, including self-supervised learning with unlabeled data, patch-based training, architectural enhancements, and generative model integration. Each method is discussed in terms of technical contribution, performance improvement, and remaining limitations. The survey consolidates recent findings, identifies unresolved challenges, and outlines future directions for MMDE. By highlighting key advancements and open problems, this paper aims to support the continued development and real-world adoption of metric depth estimation in computer vision.
- Abstract(参考訳): 単眼深度推定(MDE)は、空間的理解、三次元再構成、自律ナビゲーションを可能にするコンピュータビジョンの中核的なタスクである。
深層学習法は通常、1つの画像から相対的な深さを推定するが、計量スケールの欠如はしばしば幾何学的矛盾をもたらす。
この制限は視覚SLAM、詳細な3Dモデリング、新しいビュー合成といったアプリケーションに大きく影響する。
モノクロメートル深度推定(MMDE)は、絶対スケールで深度マップを生成し、フレーム間の一貫性を確保し、スケールキャリブレーションなしで直接配置をサポートすることでこの問題に対処する。
本稿では,従来の幾何学的アプローチから現代ディープラーニングモデルへの進化を追究する,深度推定手法に関する構造化された調査を行う。
MMDEの最近の進歩は、一般化の貧弱さとオブジェクト境界の曖昧さという2つの主要な課題に焦点をあてて分析されている。
これらの問題に対処するため、研究者たちは、ラベルのないデータによる自己教師付き学習、パッチベースのトレーニング、アーキテクチャ拡張、生成モデル統合など、さまざまな戦略を模索してきた。
それぞれの手法は、技術的貢献、性能改善、および残りの制限の観点から議論される。
この調査は最近の知見を集約し、未解決の課題を特定し、MMDEの今後の方向性を概説する。
本稿では,重要な進歩とオープンな問題を強調することで,コンピュータビジョンにおけるメートル法深度推定の継続的な開発と現実的な導入を支援することを目的とする。
関連論文リスト
- An Online Adaptation Method for Robust Depth Estimation and Visual Odometry in the Open World [16.387434563802532]
多様な新しい環境にオンラインで適応できるビジュアル・オドメトリーシステムの開発を行う。
本研究では,視覚計測システムの出力に基づいて,深度推定モジュールの自己教師型学習を目的とした。
提案手法のロバスト性と一般化能力について,都市,社内データセット,ロボットプラットフォームに対する最先端の学習ベースアプローチと比較した。
論文 参考訳(メタデータ) (2025-04-16T01:48:10Z) - Multi-view Reconstruction via SfM-guided Monocular Depth Estimation [92.89227629434316]
マルチビュー幾何再構成のための新しい手法を提案する。
深度推定プロセスに、より強力なマルチビューであるSfM情報を組み込む。
本手法は, 従来の単分子深度推定法と比較して, 深度推定の精度を著しく向上させる。
論文 参考訳(メタデータ) (2025-03-18T17:54:06Z) - Relative Pose Estimation through Affine Corrections of Monocular Depth Priors [69.59216331861437]
本研究では,独立なアフィン(スケールとシフト)のあいまいさを明示的に考慮した相対ポーズ推定のための3つの解法を開発した。
提案する解法と古典的点ベース解法とエピポーラ制約を組み合わせたハイブリッド推定パイプラインを提案する。
論文 参考訳(メタデータ) (2025-01-09T18:58:30Z) - Self-Supervised Depth Completion Guided by 3D Perception and Geometry
Consistency [17.68427514090938]
本稿では,3次元の知覚的特徴と多視点幾何整合性を利用して,高精度な自己監督深度補完法を提案する。
NYU-Depthv2 と VOID のベンチマークデータセットを用いた実験により,提案モデルが最先端の深度補完性能を実現することを示す。
論文 参考訳(メタデータ) (2023-12-23T14:19:56Z) - Robust Geometry-Preserving Depth Estimation Using Differentiable
Rendering [93.94371335579321]
我々は、余分なデータやアノテーションを必要とせずに、幾何学保存深度を予測するためにモデルを訓練する学習フレームワークを提案する。
包括的な実験は、我々のフレームワークの優れた一般化能力を強調します。
我々の革新的な損失関数は、ドメイン固有のスケール・アンド・シフト係数を自律的に復元するモデルを可能にします。
論文 参考訳(メタデータ) (2023-09-18T12:36:39Z) - Deep Depth Completion: A Survey [26.09557446012222]
我々は、読者が研究動向をよりよく把握し、現在の進歩を明確に理解するのに役立つ総合的な文献レビューを提供する。
ネットワークアーキテクチャ,損失関数,ベンチマークデータセット,学習戦略の設計面から,関連する研究について検討する。
室内および屋外のデータセットを含む,広く使用されている2つのベンチマークデータセットに対して,モデル性能の定量的比較を行った。
論文 参考訳(メタデータ) (2022-05-11T08:24:00Z) - Recovering 3D Human Mesh from Monocular Images: A Survey [49.00136388529404]
単眼画像から人間のポーズと形状を推定することは、コンピュータビジョンにおける長年の問題である。
本調査は, 単分子型3次元メッシュ回収の課題に焦点を当てた。
論文 参考訳(メタデータ) (2022-03-03T18:56:08Z) - Unsupervised Single-shot Depth Estimation using Perceptual
Reconstruction [0.0]
この研究は、生成ニューラルネットワークの分野における最新の進歩を示し、それらを活用して完全に教師なしの単発深度合成を行う。
RGB-to-deepthとdeep-to-RGB転送用の2つのジェネレータを実装し,Wasserstein-1距離と新しい知覚再構成項を用いて同時に最適化した。
本研究で得られた成果は、実世界のアプリケーションにおいて、教師なし単発深度推定の大きな可能性を示している。
論文 参考訳(メタデータ) (2022-01-28T15:11:34Z) - Probabilistic and Geometric Depth: Detecting Objects in Perspective [78.00922683083776]
3次元物体検出は、運転支援システムなどの様々な実用用途で必要とされる重要な機能である。
双眼視やLiDARに頼っている従来の設定に比べて、経済的な解決策として単眼3D検出が注目されているが、それでも満足のいく結果が得られていない。
本稿ではまず,この問題に関する系統的研究を行い,現在の単分子3次元検出問題をインスタンス深度推定問題として単純化できることを考察する。
論文 参考訳(メタデータ) (2021-07-29T16:30:33Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - Recent Advances in Monocular 2D and 3D Human Pose Estimation: A Deep
Learning Perspective [69.44384540002358]
この問題に対処するための包括的で包括的な2D-to-3D視点を提供する。
2014年からの主流とマイルストーンのアプローチを統一フレームワークで分類しています。
また,ポーズ表現スタイル,ベンチマーク,評価指標,一般的なアプローチの定量的評価を要約した。
論文 参考訳(メタデータ) (2021-04-23T11:07:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。