Fugu-MT 論文翻訳(概要): Depth2Pose: A Pose-Based Benchmark for Monocular Depth Estimation without Ground-Truth Depth

論文の概要: Depth2Pose: A Pose-Based Benchmark for Monocular Depth Estimation without Ground-Truth Depth

arxiv url: http://arxiv.org/abs/2605.19797v1
Date: Tue, 19 May 2026 12:59:11 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-20 15:03:09.346421
Title: Depth2Pose: A Pose-Based Benchmark for Monocular Depth Estimation without Ground-Truth Depth
Title（参考訳）: Depth2Pose: 接地深度のない単眼深度推定のためのPose-based Benchmark
Authors: Viktor Kocur, Sithu Aung, Gabrielle Flood, Yaqing Ding, Lukas Bujnak, Torsten Sattler, Zuzana Kukelova,
Abstract要約: 本稿では,下流タスクの文脈における単眼深度推定器(MDE)の評価フレームワークを提案する。深度認識幾何学的解法における特徴対応と深度予測を組み合わせることで、相対カメラのポーズ推定精度を深度品質のプロキシとして利用する。本手法は,地底深度が難しい場面に応用できる。
参考スコア（独自算出の注目度）: 36.90157943436845
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Monocular depth estimation has improved significantly in recent years, driven by increasingly powerful models and large-scale training data. Predicted depth is increasingly used as an input signal for downstream tasks such as Structure-from-Motion (SfM), visual localization, and SLAM. However, monocular depth estimators (MDEs) are still primarily evaluated in terms of depth accuracy. Standard metrics aggregate errors globally and may not reflect the usefulness of depth for downstream geometric tasks. We therefore propose Depth2Pose, a framework for evaluating MDEs in the context of downstream tasks. By combining depth predictions with feature correspondences in depth-aware geometric solvers, we use relative camera pose estimation accuracy as a task-driven proxy for depth quality. Traditional benchmarks require dense ground truth in the form of per-pixel depth, which is expensive to obtain. In contrast, our formulation requires only camera poses, which can be estimated efficiently, e.g., using Structure-from-Motion pipelines. As a result, our framework can be applied to scenes where ground-truth depth is difficult to obtain, for example due to large scene scale or heavy occlusions (e.g., vegetated environments). Leveraging this, we introduce the D2P dataset, which contains challenging scenes outside the distribution of commonly used training data. We show that methods performing well under standard depth error metrics on existing benchmarks also perform well under our pose-based metric when evaluated on the same datasets, but do not necessarily generalize to our more challenging dataset. Finally, we provide a simple and extensible evaluation framework. The dataset and code are available at kocurvik.github.io/depth2pose.
Abstract（参考訳）: 近年では,より強力なモデルと大規模トレーニングデータによって,単眼深度推定が大幅に向上している。予測深度は、Structure-from-Motion (SfM)、ビジュアルローカライゼーション、SLAMなどの下流タスクの入力信号として、ますます使われるようになっている。しかし, 単分子深度推定器 (MDEs) はいまだに深度精度の観点から評価されている。標準メトリクスは、世界中にエラーを集約し、下流の幾何学的タスクにおける深さの有用性を反映しないかもしれない。そこで我々は,下流タスクの文脈でMDEを評価するためのフレームワークであるDepth2Poseを提案する。深度認識幾何学的解法における特徴対応と深度予測を組み合わせることで、相対カメラのポーズ推定精度を、深度品質のタスク駆動プロキシとして利用する。従来のベンチマークでは、ピクセルごとの深度という形で、密度の高い地上の真理が要求されるが、取得には費用がかかる。対照的に、私たちの定式化はカメラのポーズのみを必要とし、例えばStructure-from-Motionパイプラインを使って効率的に推定できる。その結果,大規模なシーンスケールや植生環境など,地底深度が難しいシーンに,本フレームワークを適用することが可能となった。これを利用してD2Pデータセットを導入し、一般的に使用されているトレーニングデータの分布外の困難なシーンを含む。既存のベンチマークの標準深度誤差測定値の下では、同じデータセットで評価した場合、ポーズベースの測定値でもうまく機能するが、必ずしもより困難なデータセットに一般化するとは限らない。最後に、我々はシンプルで拡張可能な評価フレームワークを提供する。データセットとコードはkocurvik.github.io/depth2poseで入手できる。

関連論文リスト

AnchorD: Metric Grounding of Monocular Depth Using Factor Graphs [16.622717763906262]
現在利用可能な深度センサーは、透明、スペクトル、一般のランベルト面の誤差を生じやすい。本研究では,深度基礎モデルから単分子深度推定の先行値をアンカーする学習自由深度接地フレームワークを提案する。本手法はパッチワイドアフィンアライメントを行い,実世界深度で局所的に単分子予測を行う。
論文参考訳（メタデータ） (2026-05-04T14:48:52Z)
StarryGazer: Leveraging Monocular Depth Estimation Models for Domain-Agnostic Single Depth Image Completion [56.28564075246147]
StarryGazerは、単一のスパース深度画像とRGB画像から高密度深度画像を予測するフレームワークである。我々は、相対深度画像を生成するために、事前訓練されたMDEモデルを用いる。モデルの精度とロバスト性を改善するために、相対深度マップとRGBイメージを組み込んだ合成ペアを用いて改良ネットワークを訓練する。
論文参考訳（メタデータ） (2025-12-15T09:56:09Z)
Propagating Sparse Depth via Depth Foundation Model for Out-of-Distribution Depth Completion [33.854696587141355]
本研究では,大規模トレーニングを伴わずに,深度基礎モデルを利用して顕著な堅牢性を実現する新しい深度補修フレームワークを提案する。具体的には、深度基盤モデルを用いて、RGB画像から構造的・意味的文脈を含む環境条件を抽出し、疎度情報の欠落領域への伝播を誘導する。我々のフレームワークはOODシナリオにおいて非常によく機能し、既存の最先端の深度補完手法よりも優れています。
論文参考訳（メタデータ） (2025-08-07T02:38:24Z)
TR2M: Transferring Monocular Relative Depth to Metric Depth with Language Descriptions and Scale-Oriented Contrast [7.127920563966129]
現在の単分子深度推定法は主にメートル法深度推定(MMDE)と相対深度推定(MRDE)に分けられる。 MMDEは、計量スケールの深さを推定するが、しばしば特定の領域に限られる。MRDEは、異なる領域にわたってよく一般化するが、下流のアプリケーションを妨げる不確実なスケールを持つ。 TR2Mはテキスト記述と画像の両方を入力として利用し、2つの再スケールマップを推定し、画素レベルで相対深度をメートル法深度に転送する。
論文参考訳（メタデータ） (2025-06-16T11:50:00Z)
Depth Anything with Any Prior [64.39991799606146]
Prior Depth Anythingは、深さ測定における不完全だが正確な計量情報と深さ予測における相対的だが完全な幾何学的構造を組み合わせたフレームワークである。本研究では, 単眼深度推定(MDE)モデルを構築し, 深度推定の固有ノイズを改良する。われわれのモデルは、7つの現実世界のデータセットにまたがる深度補完、超高解像度、インパインティングという、印象的なゼロショットの一般化を見せている。
論文参考訳（メタデータ） (2025-05-15T17:59:50Z)
HybridDepth: Robust Metric Depth Fusion by Leveraging Depth from Focus and Single-Image Priors [10.88048563201236]
本稿では,深度推定における重要な課題に対処する頑健な深度推定パイプラインHYBRIDDEPTHを提案する。 HYBRIDDEPTHは、一般的なモバイルデバイスで便利なデータである焦点スタックを活用して、正確な距離深度マップを生成する。包括的定量的および定性的分析により、HYBRIDDEPTHは最先端(SOTA)モデルより優れていることが示された。
論文参考訳（メタデータ） (2024-07-26T00:51:52Z)
ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation [62.600382533322325]
本研究では,新しい単分子深度推定法であるScaleDepthを提案する。提案手法は,距離深度をシーンスケールと相対深度に分解し,セマンティック・アウェア・スケール予測モジュールを用いて予測する。本手法は,室内と屋外の両方のシーンを統一した枠組みで距離推定する。
論文参考訳（メタデータ） (2024-07-11T05:11:56Z)
Towards Accurate Reconstruction of 3D Scene Shape from A Single Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-08-28T16:20:14Z)
Virtual Normal: Enforcing Geometric Constraints for Accurate and Robust Depth Prediction [87.08227378010874]
深度予測における高次3次元幾何学的制約の重要性を示す。単純な幾何学的制約を強制する損失項を設計することにより、単眼深度推定の精度とロバスト性を大幅に改善する。 The-of-the-art results of learning metric depth on NYU Depth-V2 and KITTI。
論文参考訳（メタデータ） (2021-03-07T00:08:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。