論文の概要: BenchDepth: Are We on the Right Way to Evaluate Depth Foundation Models?
- arxiv url: http://arxiv.org/abs/2507.15321v1
- Date: Mon, 21 Jul 2025 07:23:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.299778
- Title: BenchDepth: Are We on the Right Way to Evaluate Depth Foundation Models?
- Title(参考訳): BenchDepth: 奥行きモデルを評価する正しい方法があるのでしょうか?
- Authors: Zhenyu Li, Haotong Lin, Jiashi Feng, Peter Wonka, Bingyi Kang,
- Abstract要約: 深層学習は強力な深層基礎モデル(DFM)を生み出した
従来のベンチマークは、バイアスを導入し、一定の深さの表現を好み、公正な比較を複雑化するアライメントベースのメトリクスに依存している。
そこで我々は,5つの下流プロキシタスクからDFMを評価するベンチマークであるBenchDepthを提案する。
- 参考スコア(独自算出の注目度): 87.83483720539071
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Depth estimation is a fundamental task in computer vision with diverse applications. Recent advancements in deep learning have led to powerful depth foundation models (DFMs), yet their evaluation remains challenging due to inconsistencies in existing protocols. Traditional benchmarks rely on alignment-based metrics that introduce biases, favor certain depth representations, and complicate fair comparisons. In this work, we propose BenchDepth, a new benchmark that evaluates DFMs through five carefully selected downstream proxy tasks: depth completion, stereo matching, monocular feed-forward 3D scene reconstruction, SLAM, and vision-language spatial understanding. Unlike conventional evaluation protocols, our approach assesses DFMs based on their practical utility in real-world applications, bypassing problematic alignment procedures. We benchmark eight state-of-the-art DFMs and provide an in-depth analysis of key findings and observations. We hope our work sparks further discussion in the community on best practices for depth model evaluation and paves the way for future research and advancements in depth estimation.
- Abstract(参考訳): 深さ推定はコンピュータビジョンにおける様々な応用の基本課題である。
近年のディープラーニングの進歩は強力な深層基盤モデル (DFM) につながっているが、既存のプロトコルの不整合のため、その評価はいまだに困難である。
従来のベンチマークは、バイアスを導入し、一定の深さの表現を好み、公正な比較を複雑化するアライメントベースのメトリクスに依存している。
そこで本研究では,深度補完,ステレオマッチング,モノクラーフィードフォワード3Dシーン再構築,SLAM,視覚空間理解の5つの下流プロキシタスクを通じてDFMを評価するベンチマークであるBenchDepthを提案する。
従来の評価プロトコルとは異なり,本手法は現実の応用における実用性に基づいてDFMを評価し,問題のあるアライメント手順を回避している。
我々は8つの最先端DFMをベンチマークし、重要な発見と観察の詳細な分析を行う。
我々の研究が、深度モデル評価のためのベストプラクティスに関するコミュニティのさらなる議論を引き起こし、将来の研究と深度推定の進歩の道を開くことを願っている。
関連論文リスト
- Towards Depth Foundation Model: Recent Trends in Vision-Based Depth Estimation [75.30238170051291]
深さ推定は3Dコンピュータビジョンの基本課題であり、3D再構成、自由視点レンダリング、ロボティクス、自律運転、AR/VR技術といった応用に不可欠である。
LiDARのようなハードウェアセンサーに依存する従来の方法は、しばしば高コスト、低解像度、環境感度によって制限され、現実のシナリオで適用性を制限する。
ビジョンベースの手法の最近の進歩は有望な代替手段を提供するが、低容量モデルアーキテクチャやドメイン固有の小規模データセットへの依存のため、一般化と安定性の課題に直面している。
論文 参考訳(メタデータ) (2025-07-15T17:59:59Z) - Evaluating Robustness of Monocular Depth Estimation with Procedural Scene Perturbations [55.4735586739093]
我々は,系統的ロバストネス評価を可能にする新しいベンチマークであるPDEを紹介する。
PDEは手続き生成を使用して、様々な制御された摂動に対する堅牢性をテストする3Dシーンを生成する。
我々の分析は、最先端の深度モデルではどのような摂動が困難なのか、興味深い結果をもたらす。
論文 参考訳(メタデータ) (2025-07-01T17:33:48Z) - Multi-view Reconstruction via SfM-guided Monocular Depth Estimation [92.89227629434316]
マルチビュー幾何再構成のための新しい手法を提案する。
深度推定プロセスに、より強力なマルチビューであるSfM情報を組み込む。
本手法は, 従来の単分子深度推定法と比較して, 深度推定の精度を著しく向上させる。
論文 参考訳(メタデータ) (2025-03-18T17:54:06Z) - Survey on Monocular Metric Depth Estimation [0.9790236766474202]
深層学習法は通常、1つの画像から相対的な深さを推定するが、計量スケールの欠如はしばしば幾何学的矛盾をもたらす。
単分子距離推定(MMDE)は、絶対スケールで深度マップを作成することでこの問題に対処する。
本稿では,従来の幾何学的アプローチから現代ディープラーニングモデルへの進化を追究する,深度推定手法に関する構造化された調査を行う。
論文 参考訳(メタデータ) (2025-01-21T02:51:10Z) - Relative Pose Estimation through Affine Corrections of Monocular Depth Priors [69.59216331861437]
本研究では,独立なアフィン(スケールとシフト)のあいまいさを明示的に考慮した相対ポーズ推定のための3つの解法を開発した。
提案する解法と古典的点ベース解法とエピポーラ制約を組み合わせたハイブリッド推定パイプラインを提案する。
論文 参考訳(メタデータ) (2025-01-09T18:58:30Z) - From 2D to 3D: Re-thinking Benchmarking of Monocular Depth Prediction [80.67873933010783]
我々は,MDPが現在,3Dアプリケーションにおける予測の有用性を評価するのに有効な指標に頼っていることを論じる。
これにより、2Dベースの距離を最適化するのではなく、シーンの3D構造を正確に認識し、推定に向けて改善する新しい手法の設計と開発が制限される。
本稿では,MDP手法の3次元幾何評価に適した指標セットと,提案手法に不可欠な室内ベンチマークRIO-D3Dを提案する。
論文 参考訳(メタデータ) (2022-03-15T17:50:54Z) - Unsupervised Single-shot Depth Estimation using Perceptual
Reconstruction [0.0]
この研究は、生成ニューラルネットワークの分野における最新の進歩を示し、それらを活用して完全に教師なしの単発深度合成を行う。
RGB-to-deepthとdeep-to-RGB転送用の2つのジェネレータを実装し,Wasserstein-1距離と新しい知覚再構成項を用いて同時に最適化した。
本研究で得られた成果は、実世界のアプリケーションにおいて、教師なし単発深度推定の大きな可能性を示している。
論文 参考訳(メタデータ) (2022-01-28T15:11:34Z) - Self-Supervised Monocular Depth Estimation with Internal Feature Fusion [12.874712571149725]
深度推定のための自己教師付き学習は、画像列の幾何学を用いて監督する。
そこで本研究では,ダウンおよびアップサンプリングの手順で意味情報を利用することのできる,新しい深度推定ネットワークDIFFNetを提案する。
論文 参考訳(メタデータ) (2021-10-18T17:31:11Z) - Monocular Depth Estimation Based On Deep Learning: An Overview [16.2543991384566]
単一の画像から深度情報(眼深度推定)を推定することは不適切な問題である。
ディープラーニングは最近広く研究され、精度で有望なパフォーマンスを達成した。
深度推定の精度を向上させるために,様々な種類のネットワークフレームワーク,損失関数,トレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-03-14T12:35:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。