論文の概要: Survey on Monocular Metric Depth Estimation
- arxiv url: http://arxiv.org/abs/2501.11841v3
- Date: Thu, 10 Apr 2025 03:18:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:21:08.587071
- Title: Survey on Monocular Metric Depth Estimation
- Title(参考訳): 単分子メートル法深度推定に関する調査
- Authors: Jiuling Zhang,
- Abstract要約: 深層学習法は通常、1つの画像から相対的な深さを推定するが、計量スケールの欠如はしばしば幾何学的矛盾をもたらす。
単分子距離推定(MMDE)は、絶対スケールで深度マップを作成することでこの問題に対処する。
本稿では,従来の幾何学的アプローチから現代ディープラーニングモデルへの進化を追究する,深度推定手法に関する構造化された調査を行う。
- 参考スコア(独自算出の注目度): 0.9790236766474202
- License:
- Abstract: Monocular Depth Estimation (MDE) is a core task in computer vision that enables spatial understanding, 3D reconstruction, and autonomous navigation. Deep learning methods typically estimate relative depth from a single image, but the lack of metric scale often leads to geometric inconsistencies. This limitation severely impacts applications such as visual SLAM, detailed 3D modeling, and novel view synthesis. Monocular Metric Depth Estimation (MMDE) addresses this issue by producing depth maps with absolute scale, ensuring frame-to-frame consistency and supporting direct deployment without scale calibration. This paper presents a structured survey of depth estimation methods, tracing the evolution from traditional geometry-based approaches to modern deep learning models. Recent progress in MMDE is analyzed, with a focus on two key challenges: poor generalization and blurred object boundaries. To tackle these problems, researchers have explored various strategies, including self-supervised learning with unlabeled data, patch-based training, architectural enhancements, and generative model integration. Each method is discussed in terms of technical contribution, performance improvement, and remaining limitations. The survey consolidates recent findings, identifies unresolved challenges, and outlines future directions for MMDE. By highlighting key advancements and open problems, this paper aims to support the continued development and real-world adoption of metric depth estimation in computer vision.
- Abstract(参考訳): 単眼深度推定(MDE)は、空間的理解、三次元再構成、自律ナビゲーションを可能にするコンピュータビジョンの中核的なタスクである。
深層学習法は通常、1つの画像から相対的な深さを推定するが、計量スケールの欠如はしばしば幾何学的矛盾をもたらす。
この制限は視覚SLAM、詳細な3Dモデリング、新しいビュー合成といったアプリケーションに大きく影響する。
モノクロメートル深度推定(MMDE)は、絶対スケールで深度マップを生成し、フレーム間の一貫性を確保し、スケールキャリブレーションなしで直接配置をサポートすることでこの問題に対処する。
本稿では,従来の幾何学的アプローチから現代ディープラーニングモデルへの進化を追究する,深度推定手法に関する構造化された調査を行う。
MMDEの最近の進歩は、一般化の貧弱さとオブジェクト境界の曖昧さという2つの主要な課題に焦点をあてて分析されている。
これらの問題に対処するため、研究者たちは、ラベルのないデータによる自己教師付き学習、パッチベースのトレーニング、アーキテクチャ拡張、生成モデル統合など、さまざまな戦略を模索してきた。
それぞれの手法は、技術的貢献、性能改善、および残りの制限の観点から議論される。
この調査は最近の知見を集約し、未解決の課題を特定し、MMDEの今後の方向性を概説する。
本稿では,重要な進歩とオープンな問題を強調することで,コンピュータビジョンにおけるメートル法深度推定の継続的な開発と現実的な導入を支援することを目的とする。
関連論文リスト
- MetricGold: Leveraging Text-To-Image Latent Diffusion Models for Metric Depth Estimation [9.639797094021988]
MetricGoldは、生成拡散モデルの豊富な先行値を利用して、メートル法深さ推定を改善する新しいアプローチである。
我々の実験は、多様なデータセットをまたいだ堅牢な一般化を実証し、よりシャープで高品質なメートル法深さ推定を導出する。
論文 参考訳(メタデータ) (2024-11-16T20:59:01Z) - Self-Supervised Depth Completion Guided by 3D Perception and Geometry
Consistency [17.68427514090938]
本稿では,3次元の知覚的特徴と多視点幾何整合性を利用して,高精度な自己監督深度補完法を提案する。
NYU-Depthv2 と VOID のベンチマークデータセットを用いた実験により,提案モデルが最先端の深度補完性能を実現することを示す。
論文 参考訳(メタデータ) (2023-12-23T14:19:56Z) - Robust Geometry-Preserving Depth Estimation Using Differentiable
Rendering [93.94371335579321]
我々は、余分なデータやアノテーションを必要とせずに、幾何学保存深度を予測するためにモデルを訓練する学習フレームワークを提案する。
包括的な実験は、我々のフレームワークの優れた一般化能力を強調します。
我々の革新的な損失関数は、ドメイン固有のスケール・アンド・シフト係数を自律的に復元するモデルを可能にします。
論文 参考訳(メタデータ) (2023-09-18T12:36:39Z) - Depth Estimation Matters Most: Improving Per-Object Depth Estimation for
Monocular 3D Detection and Tracking [47.59619420444781]
検出・追跡を含む単眼的3D知覚へのアプローチは、LiDARベースの手法と比較して性能が劣ることが多い。
本稿では,オブジェクト(トラックレット)の複数のフレームに異なる表現(RGBと擬似LiDAR)と時間情報を組み合わせた多層融合手法を提案する。
論文 参考訳(メタデータ) (2022-06-08T03:37:59Z) - Deep Depth Completion: A Survey [26.09557446012222]
我々は、読者が研究動向をよりよく把握し、現在の進歩を明確に理解するのに役立つ総合的な文献レビューを提供する。
ネットワークアーキテクチャ,損失関数,ベンチマークデータセット,学習戦略の設計面から,関連する研究について検討する。
室内および屋外のデータセットを含む,広く使用されている2つのベンチマークデータセットに対して,モデル性能の定量的比較を行った。
論文 参考訳(メタデータ) (2022-05-11T08:24:00Z) - Recovering 3D Human Mesh from Monocular Images: A Survey [49.00136388529404]
単眼画像から人間のポーズと形状を推定することは、コンピュータビジョンにおける長年の問題である。
本調査は, 単分子型3次元メッシュ回収の課題に焦点を当てた。
論文 参考訳(メタデータ) (2022-03-03T18:56:08Z) - Unsupervised Single-shot Depth Estimation using Perceptual
Reconstruction [0.0]
この研究は、生成ニューラルネットワークの分野における最新の進歩を示し、それらを活用して完全に教師なしの単発深度合成を行う。
RGB-to-deepthとdeep-to-RGB転送用の2つのジェネレータを実装し,Wasserstein-1距離と新しい知覚再構成項を用いて同時に最適化した。
本研究で得られた成果は、実世界のアプリケーションにおいて、教師なし単発深度推定の大きな可能性を示している。
論文 参考訳(メタデータ) (2022-01-28T15:11:34Z) - Probabilistic and Geometric Depth: Detecting Objects in Perspective [78.00922683083776]
3次元物体検出は、運転支援システムなどの様々な実用用途で必要とされる重要な機能である。
双眼視やLiDARに頼っている従来の設定に比べて、経済的な解決策として単眼3D検出が注目されているが、それでも満足のいく結果が得られていない。
本稿ではまず,この問題に関する系統的研究を行い,現在の単分子3次元検出問題をインスタンス深度推定問題として単純化できることを考察する。
論文 参考訳(メタデータ) (2021-07-29T16:30:33Z) - Recent Advances in Monocular 2D and 3D Human Pose Estimation: A Deep
Learning Perspective [69.44384540002358]
この問題に対処するための包括的で包括的な2D-to-3D視点を提供する。
2014年からの主流とマイルストーンのアプローチを統一フレームワークで分類しています。
また,ポーズ表現スタイル,ベンチマーク,評価指標,一般的なアプローチの定量的評価を要約した。
論文 参考訳(メタデータ) (2021-04-23T11:07:07Z) - Occlusion-Aware Depth Estimation with Adaptive Normal Constraints [85.44842683936471]
カラービデオから多フレーム深度を推定する新しい学習手法を提案する。
本手法は深度推定精度において最先端の手法より優れる。
論文 参考訳(メタデータ) (2020-04-02T07:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。