Fugu-MT 論文翻訳(概要): Survey on Monocular Metric Depth Estimation

論文の概要: Survey on Monocular Metric Depth Estimation

arxiv url: http://arxiv.org/abs/2501.11841v2
Date: Thu, 27 Mar 2025 03:21:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-28 14:27:26.261819
Title: Survey on Monocular Metric Depth Estimation
Title（参考訳）: 単分子メートル法深度推定に関する調査
Authors: Jiuling Zhang,
Abstract要約: 本稿では,従来の幾何学的手法からディープラーニングのブレークスルーまで,深さ推定の進化を体系的にレビューする。モデル一般化や境界詳細損失といった課題に着目し, ゼロショットMMDEの最近の進歩について検討した。
参考スコア（独自算出の注目度）: 0.9790236766474202
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Monocular Depth Estimation (MDE) is fundamental to computer vision, enabling spatial understanding, 3D reconstruction, and autonomous driving. Deep learning-based MDE predicts relative depth from a single image, but the lack of metric scale introduces inconsistencies, limiting applicability in tasks such as visual SLAM, 3D reconstruction, and novel view synthesis. Monocular Metric Depth Estimation (MMDE) overcomes this limitation by enabling precise scene-scale inference, improving depth consistency, enhancing stability in sequential tasks, and streamlining integration into practical systems. This paper systematically reviews the evolution of depth estimation, from traditional geometric methods to deep learning breakthroughs, emphasizing scale-agnostic approaches in zero-shot generalization which is crucial for advancing MMDE. Recent progress in zero-shot MMDE is examined, focusing on challenges such as model generalization and boundary detail loss. To address these issues, researchers have explored unlabeled data augmentation, image patching, architectural optimization, and generative techniques. This review analyzes these developments, assessing their impact and limitations. Key findings are synthesized, unresolved challenges outlined, and future research direction proposal. By providing a clear technical roadmap and insight into emerging trends, this work aims to drive innovation and expand the real-world applications of MMDE.
Abstract（参考訳）: 単眼深度推定(MDE)はコンピュータビジョンの基本であり、空間的理解、三次元再構成、自律運転を可能にする。深層学習に基づくMDEは、1つの画像から相対的な深度を予測するが、メトリクススケールの欠如は矛盾をもたらし、視覚SLAMや3D再構成、新しいビュー合成といったタスクに適用性を制限する。単分子距離推定(MMDE)は、シーンスケールの正確な推論を可能にし、深さの整合性を改善し、シーケンシャルなタスクの安定性を向上し、実用的なシステムへの統合を合理化することによって、この制限を克服する。本稿では,従来の幾何学的手法からディープラーニングのブレークスルーまで,深度推定の進化を体系的にレビューし,MMDEの進展に欠かせないゼロショット一般化におけるスケールに依存しないアプローチを強調した。モデル一般化や境界詳細損失といった課題に着目し, ゼロショットMMDEの最近の進歩について検討した。これらの問題に対処するため、研究者はラベルのないデータ拡張、画像パッチ、アーキテクチャ最適化、生成技術を調査した。このレビューは、これらの展開を分析し、その影響と限界を評価します。主要な発見は、合成され、未解決の課題が概説され、今後の研究方向性が提案される。新たなトレンドに関する明確な技術的なロードマップと洞察を提供することで、この研究はイノベーションを加速し、MMDEの現実世界の応用を拡大することを目的としています。

関連論文リスト

Visual Autoregressive Modelling for Monocular Depth Estimation [69.01449528371916]
本稿では,視覚的自己回帰(VAR)に基づく単眼深度推定手法を提案する。提案手法は,大規模テキスト・画像VARモデルに適応し,スケールワイド・コンディショナル・アップサンプリング機構を導入する。本研究では,屋内ベンチマークにおける制約付きトレーニング条件下での最先端性能と,屋外データセットに適用した場合の強い性能について報告する。
論文参考訳（メタデータ） (2025-12-27T17:08:03Z)
MoRE: 3D Visual Geometry Reconstruction Meets Mixture-of-Experts [50.37005070020306]
MoREは、Mixture-of-Experts (MoE)アーキテクチャに基づいた、密集した3Dビジュアル基盤モデルである。 MoREは、幾何推定を安定させ、洗練する信頼に基づく深度補正モジュールを組み込んでいる。高忠実な表面正規予測のために,高密度なセマンティック特徴とグローバルな3Dバックボーン表現を統合する。
論文参考訳（メタデータ） (2025-10-31T06:54:27Z)
GeoDiff: Geometry-Guided Diffusion for Metric Depth Estimation [25.50613737995557]
本稿では,立体視誘導を用いた拡散型単分子深度推定(DB-MDE)モデルの改良を目的とした,距離深度推定のための新しいフレームワークを提案する。トレーニングフリーのソリューションは既存のDB-MDEフレームワークとシームレスに統合され、屋内、屋外、複雑な環境にまたがって一般化されます。
論文参考訳（メタデータ） (2025-10-21T04:47:36Z)
UM-Depth : Uncertainty Masked Self-Supervised Monocular Depth Estimation with Visual Odometry [3.8323580808203785]
我々は,動き認識と不確実性認識を組み合わせたフレームワークであるUM-Depthを導入し,深度精度を向上する。トレーニングパイプラインとネットワークアーキテクチャの両方に不確実性推定を組み込む教師訓練戦略を開発する。 UM-Depthは、KITTIデータセット上で、自己教師付き深度とポーズ推定の両方で最先端の結果を達成する。
論文参考訳（メタデータ） (2025-09-17T05:51:07Z)
Towards Depth Foundation Model: Recent Trends in Vision-Based Depth Estimation [75.30238170051291]
深さ推定は3Dコンピュータビジョンの基本課題であり、3D再構成、自由視点レンダリング、ロボティクス、自律運転、AR/VR技術といった応用に不可欠である。 LiDARのようなハードウェアセンサーに依存する従来の方法は、しばしば高コスト、低解像度、環境感度によって制限され、現実のシナリオで適用性を制限する。ビジョンベースの手法の最近の進歩は有望な代替手段を提供するが、低容量モデルアーキテクチャやドメイン固有の小規模データセットへの依存のため、一般化と安定性の課題に直面している。
論文参考訳（メタデータ） (2025-07-15T17:59:59Z)
An Online Adaptation Method for Robust Depth Estimation and Visual Odometry in the Open World [16.387434563802532]
多様な新しい環境にオンラインで適応できるビジュアル・オドメトリーシステムの開発を行う。本研究では,視覚計測システムの出力に基づいて,深度推定モジュールの自己教師型学習を目的とした。提案手法のロバスト性と一般化能力について,都市,社内データセット,ロボットプラットフォームに対する最先端の学習ベースアプローチと比較した。
論文参考訳（メタデータ） (2025-04-16T01:48:10Z)
Multi-view Reconstruction via SfM-guided Monocular Depth Estimation [92.89227629434316]
マルチビュー幾何再構成のための新しい手法を提案する。深度推定プロセスに、より強力なマルチビューであるSfM情報を組み込む。本手法は, 従来の単分子深度推定法と比較して, 深度推定の精度を著しく向上させる。
論文参考訳（メタデータ） (2025-03-18T17:54:06Z)
Relative Pose Estimation through Affine Corrections of Monocular Depth Priors [69.59216331861437]
本研究では,独立なアフィン(スケールとシフト)のあいまいさを明示的に考慮した相対ポーズ推定のための3つの解法を開発した。提案する解法と古典的点ベース解法とエピポーラ制約を組み合わせたハイブリッド推定パイプラインを提案する。
論文参考訳（メタデータ） (2025-01-09T18:58:30Z)
TanDepth: Leveraging Global DEMs for Metric Monocular Depth Estimation in UAVs [5.6168844664788855]
本研究は,推定時間における相対的推定から距離深度を求めるための実用的スケール回復手法であるTanDepthを提示する。提案手法は,GDEM(Global Digital Elevation Models)のスパース計測をカメラビューに投影することで活用する。推定深度マップから接地点を選択して、投影された基準点と相関するクラスフィルタシミュレーションへの適応を示す。
論文参考訳（メタデータ） (2024-09-08T15:54:43Z)
Self-Supervised Depth Completion Guided by 3D Perception and Geometry Consistency [17.68427514090938]
本稿では,3次元の知覚的特徴と多視点幾何整合性を利用して,高精度な自己監督深度補完法を提案する。 NYU-Depthv2 と VOID のベンチマークデータセットを用いた実験により,提案モデルが最先端の深度補完性能を実現することを示す。
論文参考訳（メタデータ） (2023-12-23T14:19:56Z)
Robust Geometry-Preserving Depth Estimation Using Differentiable Rendering [93.94371335579321]
我々は、余分なデータやアノテーションを必要とせずに、幾何学保存深度を予測するためにモデルを訓練する学習フレームワークを提案する。包括的な実験は、我々のフレームワークの優れた一般化能力を強調します。我々の革新的な損失関数は、ドメイン固有のスケール・アンド・シフト係数を自律的に復元するモデルを可能にします。
論文参考訳（メタデータ） (2023-09-18T12:36:39Z)
Geometric Deep Learning for Structure-Based Drug Design: A Survey [83.87489798671155]
構造に基づく薬物設計(SBDD)は、タンパク質の3次元幾何学を利用して、潜在的な薬物候補を特定する。近年の幾何学的深層学習の進歩は、3次元幾何学的データを効果的に統合・処理し、この分野を前進させてきた。
論文参考訳（メタデータ） (2023-06-20T14:21:58Z)
Deep Depth Completion: A Survey [26.09557446012222]
我々は、読者が研究動向をよりよく把握し、現在の進歩を明確に理解するのに役立つ総合的な文献レビューを提供する。ネットワークアーキテクチャ,損失関数,ベンチマークデータセット,学習戦略の設計面から,関連する研究について検討する。室内および屋外のデータセットを含む,広く使用されている2つのベンチマークデータセットに対して,モデル性能の定量的比較を行った。
論文参考訳（メタデータ） (2022-05-11T08:24:00Z)
Unsupervised Domain Adaptation for Monocular 3D Object Detection via Self-Training [57.25828870799331]
我々は、Mono3D上での教師なしドメイン適応のための新しい自己学習フレームワークSTMono3Dを提案する。対象ドメイン上で適応的な擬似ラベルを生成するための教師学生パラダイムを開発する。 STMono3Dは、評価されたすべてのデータセットで顕著なパフォーマンスを達成し、KITTI 3Dオブジェクト検出データセットの完全な教師付き結果を超えています。
論文参考訳（メタデータ） (2022-04-25T12:23:07Z)
Recovering 3D Human Mesh from Monocular Images: A Survey [49.00136388529404]
単眼画像から人間のポーズと形状を推定することは、コンピュータビジョンにおける長年の問題である。本調査は, 単分子型3次元メッシュ回収の課題に焦点を当てた。
論文参考訳（メタデータ） (2022-03-03T18:56:08Z)
Unsupervised Single-shot Depth Estimation using Perceptual Reconstruction [0.0]
この研究は、生成ニューラルネットワークの分野における最新の進歩を示し、それらを活用して完全に教師なしの単発深度合成を行う。 RGB-to-deepthとdeep-to-RGB転送用の2つのジェネレータを実装し,Wasserstein-1距離と新しい知覚再構成項を用いて同時に最適化した。本研究で得られた成果は、実世界のアプリケーションにおいて、教師なし単発深度推定の大きな可能性を示している。
論文参考訳（メタデータ） (2022-01-28T15:11:34Z)
Probabilistic and Geometric Depth: Detecting Objects in Perspective [78.00922683083776]
3次元物体検出は、運転支援システムなどの様々な実用用途で必要とされる重要な機能である。双眼視やLiDARに頼っている従来の設定に比べて、経済的な解決策として単眼3D検出が注目されているが、それでも満足のいく結果が得られていない。本稿ではまず,この問題に関する系統的研究を行い,現在の単分子3次元検出問題をインスタンス深度推定問題として単純化できることを考察する。
論文参考訳（メタデータ） (2021-07-29T16:30:33Z)
Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文参考訳（メタデータ） (2021-07-29T12:30:39Z)
Recent Advances in Monocular 2D and 3D Human Pose Estimation: A Deep Learning Perspective [69.44384540002358]
この問題に対処するための包括的で包括的な2D-to-3D視点を提供する。 2014年からの主流とマイルストーンのアプローチを統一フレームワークで分類しています。また,ポーズ表現スタイル,ベンチマーク,評価指標,一般的なアプローチの定量的評価を要約した。
論文参考訳（メタデータ） (2021-04-23T11:07:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。