論文の概要: Benchmark on Monocular Metric Depth Estimation in Wildlife Setting
- arxiv url: http://arxiv.org/abs/2510.04723v1
- Date: Mon, 06 Oct 2025 11:43:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.835664
- Title: Benchmark on Monocular Metric Depth Estimation in Wildlife Setting
- Title(参考訳): 野生生物における単分子量深度推定のベンチマーク
- Authors: Niccolò Niccoli, Lorenzo Seidenari, Ilaria Greco, Francesco Rovero,
- Abstract要約: 本研究は,野生生物モニタリング環境におけるモノクラー計量深度推定のための最初のベンチマークを紹介する。
93枚のカメラトラップ画像の幾何学的ベースラインとともに、4つの最先端MDE手法(Depth Anything V2, ML Depth Pro, ZoeDepth, Metric3D)を評価した。
以上の結果から,Depth Anything V2は平均絶対誤差0.454m,相関0.962で最高の総合性能を達成できた。
- 参考スコア(独自算出の注目度): 5.296470528744146
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Camera traps are widely used for wildlife monitoring, but extracting accurate distance measurements from monocular images remains challenging due to the lack of depth information. While monocular depth estimation (MDE) methods have advanced significantly, their performance in natural wildlife environments has not been systematically evaluated. This work introduces the first benchmark for monocular metric depth estimation in wildlife monitoring conditions. We evaluate four state-of-the-art MDE methods (Depth Anything V2, ML Depth Pro, ZoeDepth, and Metric3D) alongside a geometric baseline on 93 camera trap images with ground truth distances obtained using calibrated ChARUCO patterns. Our results demonstrate that Depth Anything V2 achieves the best overall performance with a mean absolute error of 0.454m and correlation of 0.962, while methods like ZoeDepth show significant degradation in outdoor natural environments (MAE: 3.087m). We find that median-based depth extraction consistently outperforms mean-based approaches across all deep learning methods. Additionally, we analyze computational efficiency, with ZoeDepth being fastest (0.17s per image) but least accurate, while Depth Anything V2 provides an optimal balance of accuracy and speed (0.22s per image). This benchmark establishes performance baselines for wildlife applications and provides practical guidance for implementing depth estimation in conservation monitoring systems.
- Abstract(参考訳): カメラトラップは野生生物の監視に広く用いられているが、深度情報がないため、単眼画像から正確な距離測定を抽出することは依然として困難である。
単分子深度推定法 (MDE) は著しく進歩しているが, 自然環境下での性能は体系的に評価されていない。
本研究は,野生生物モニタリング環境におけるモノクラー計量深度推定のための最初のベンチマークを紹介する。
キャリブレーションされたChARUCOパターンを用いて、93枚のカメラトラップ画像の幾何学的ベースラインとともに、4つの最先端MDE手法(Depth Anything V2, ML Depth Pro, ZoeDepth, Metric3D)を評価した。
以上の結果から,Depth Anything V2は平均絶対誤差0.454m,相関0.962m,屋外自然環境(MAE:3.087m)ではZoeDepthなどの手法が著しく低下していることがわかった。
中央値に基づく深度抽出は、すべての深度学習手法において平均値に基づくアプローチよりも一貫して優れることがわかった。
さらに、ZeeDepthが最速(画像当たり0.17秒)だが最小の精度で計算効率を解析し、Depth Anything V2は精度と速度の最適なバランス(画像当たり0.22秒)を提供する。
本ベンチマークは野生生物のアプリケーションの性能基準を確立し,保全モニタリングシステムにおける深度推定の実装のための実践的ガイダンスを提供する。
関連論文リスト
- OrchardDepth: Precise Metric Depth Estimation of Orchard Scene from Monocular Camera Images [3.3152016226925913]
果樹園環境における単眼カメラのメートル法深度推定のギャップを埋めるOrchardDepthを提案する。
さらに,深度マップとスパースポイント間の一貫した正規化をモニタリングすることにより,トレーニング結果を改善するための新たなトレーニング手法を提案する。
論文 参考訳(メタデータ) (2025-02-20T05:40:56Z) - Marigold-DC: Zero-Shot Monocular Depth Completion with Guided Diffusion [57.08169927189237]
奥行き完了のための既存の手法は、厳密に制約された設定で動作する。
単眼深度推定の進歩に触発されて,画像条件の深度マップ生成として深度補完を再構成した。
Marigold-DCは、単分子深度推定のための事前訓練された潜伏拡散モデルを構築し、試験時間ガイダンスとして深度観測を注入する。
論文 参考訳(メタデータ) (2024-12-18T00:06:41Z) - Depth Pro: Sharp Monocular Metric Depth in Less Than a Second [45.6690958201871]
ゼロショット距離単眼深度推定のための基礎モデルを提案する。
我々のモデルであるDepth Proは、非並列のシャープネスと高周波の詳細で高分解能深度マップを合成する。
標準GPUで0.3秒で2.25メガピクセルの深度マップを生成する。
論文 参考訳(メタデータ) (2024-10-02T22:42:20Z) - Uncertainty Guided Depth Fusion for Spike Camera [49.41822923588663]
スパイクカメラのための単分子およびステレオ深度推定ネットワークの予測を融合させる新しい不確かさ誘導深度融合(UGDF)フレームワークを提案する。
我々のフレームワークは、ステレオスパイク深さ推定がより近い範囲でより良い結果をもたらすという事実に動機づけられている。
従来のカメラ深度推定よりもスパイク深度推定の利点を示すため、我々はCitySpike20Kというスパイク深度データセットに貢献する。
論文 参考訳(メタデータ) (2022-08-26T13:04:01Z) - Towards 3D Scene Reconstruction from Locally Scale-Aligned Monocular
Video Depth [90.33296913575818]
映像深度推定や映像からの3次元シーン再構成のようなビデオベースのシナリオでは、フレームごとの予測における未知のスケールとシフトが深度の不整合を引き起こす可能性がある。
局所重み付き線形回帰法を提案する。
提案手法は,複数のゼロショットベンチマークにおいて,既存の最先端手法の性能を50%向上させることができる。
論文 参考訳(メタデータ) (2022-02-03T08:52:54Z) - Robust Consistent Video Depth Estimation [65.53308117778361]
本稿では,単眼映像からカメラのカメラポーズと密集した深度マップを推定するアルゴリズムを提案する。
本手法は,(1)低周波大規模アライメントのためのフレキシブルな変形-スプラインと(2)細部奥行き詳細の高周波アライメントのための幾何認識深度フィルタリングとを組み合わせた手法である。
従来の手法とは対照的に, カメラのポーズを入力として必要とせず, かなりの音量, 揺動, 動きのぼやき, 転がりシャッター変形を含む携帯のハンドヘルドキャプチャに頑健な再構成を実現する。
論文 参考訳(メタデータ) (2020-12-10T18:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。