論文の概要: Depth Pro: Sharp Monocular Metric Depth in Less Than a Second
- arxiv url: http://arxiv.org/abs/2410.02073v1
- Date: Wed, 2 Oct 2024 22:42:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 09:05:40.830395
- Title: Depth Pro: Sharp Monocular Metric Depth in Less Than a Second
- Title(参考訳): Depth Pro:シャープ単分子メートルの深さは1秒以下
- Authors: Aleksei Bochkovskii, Amaël Delaunoy, Hugo Germain, Marcel Santos, Yichao Zhou, Stephan R. Richter, Vladlen Koltun,
- Abstract要約: ゼロショット距離単眼深度推定のための基礎モデルを提案する。
我々のモデルであるDepth Proは、非並列のシャープネスと高周波の詳細で高分解能深度マップを合成する。
標準GPUで0.3秒で2.25メガピクセルの深度マップを生成する。
- 参考スコア(独自算出の注目度): 45.6690958201871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a foundation model for zero-shot metric monocular depth estimation. Our model, Depth Pro, synthesizes high-resolution depth maps with unparalleled sharpness and high-frequency details. The predictions are metric, with absolute scale, without relying on the availability of metadata such as camera intrinsics. And the model is fast, producing a 2.25-megapixel depth map in 0.3 seconds on a standard GPU. These characteristics are enabled by a number of technical contributions, including an efficient multi-scale vision transformer for dense prediction, a training protocol that combines real and synthetic datasets to achieve high metric accuracy alongside fine boundary tracing, dedicated evaluation metrics for boundary accuracy in estimated depth maps, and state-of-the-art focal length estimation from a single image. Extensive experiments analyze specific design choices and demonstrate that Depth Pro outperforms prior work along multiple dimensions. We release code and weights at https://github.com/apple/ml-depth-pro
- Abstract(参考訳): ゼロショット距離単眼深度推定のための基礎モデルを提案する。
我々のモデルであるDepth Proは、非並列のシャープネスと高周波の詳細で高分解能深度マップを合成する。
予測は、カメラ固有のようなメタデータの可用性に頼ることなく、絶対スケールでメトリックである。
モデルは高速で、標準的なGPUで0.3秒で2.25メガピクセルの深度マップを生成する。
これらの特徴は、高密度な予測のための効率的なマルチスケール視覚変換器、実際のデータセットと合成データセットを組み合わせて、詳細な境界追跡とともに高い計量精度を達成するためのトレーニングプロトコル、推定深度マップにおける境界精度の専用評価指標、単一画像からの最先端焦点距離推定など、多くの技術的貢献によって実現されている。
大規模な実験は、特定の設計選択を分析し、Depth Proが複数の次元に沿って前の作業より優れていることを示す。
コードと重みはhttps://github.com/apple/ml-depth-proで公開しています。
関連論文リスト
- Fixing the Scale and Shift in Monocular Depth For Camera Pose Estimation [47.68705641608316]
本稿では,2つのカメラ間の相対的なポーズを,関連する単眼深度に対応する点対応から推定する新しい枠組みを提案する。
2台の校正カメラ, 2台の未校正カメラ, 2台の未校正カメラ, 2台の未校正カメラ, 3台の未校正カメラ, 3台の非校正カメラ, 3台の非校正カメラの焦点長を比較検討した。
従来の研究と比較すると、我々の解法は2つの大規模な実世界のデータセットに対して最先端の結果が得られる。
論文 参考訳(メタデータ) (2025-01-13T23:13:33Z) - Foundation Models Meet Low-Cost Sensors: Test-Time Adaptation for Rescaling Disparity for Zero-Shot Metric Depth Estimation [46.037640130193566]
本稿では,低コストセンサや低解像度LiDARなどの技術によって提供される3Dポイントを用いて,奥行き予測を再スケールする手法を提案する。
実験では,他の距離深度推定法との比較と,微調整手法との比較による競合性について検討した。
論文 参考訳(メタデータ) (2024-12-18T17:50:15Z) - Single-Shot Metric Depth from Focused Plenoptic Cameras [18.412662939667676]
視覚センサによる距離推定は、ロボットが環境を知覚し、ナビゲートし、操作するために不可欠である。
光電界イメージングは、単一のデバイスを通してユニークなレンズ構成を使用することで、メートル法深度を推定するための有望なソリューションを提供する。
我々の研究は、高密度なメートル法深度のための集束型レンズカメラの可能性を探究する。
論文 参考訳(メタデータ) (2024-12-03T11:21:17Z) - SharpDepth: Sharpening Metric Depth Predictions Using Diffusion Distillation [17.88798247412388]
SharpDepthは、識別深度推定法の計量精度と、生成法によって通常達成されるきめ細かい境界シャープネスを組み合わせている。
我々の手法は、距離精度と詳細な境界保存を統合することでこれらの制限を橋渡しし、計量的精度と視覚的シャープさの両方の深さ予測をもたらす。
論文 参考訳(メタデータ) (2024-11-27T11:07:27Z) - ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation [62.600382533322325]
本研究では,新しい単分子深度推定法であるScaleDepthを提案する。
提案手法は,距離深度をシーンスケールと相対深度に分解し,セマンティック・アウェア・スケール予測モジュールを用いて予測する。
本手法は,室内と屋外の両方のシーンを統一した枠組みで距離推定する。
論文 参考訳(メタデータ) (2024-07-11T05:11:56Z) - Deep Neighbor Layer Aggregation for Lightweight Self-Supervised
Monocular Depth Estimation [1.6775954077761863]
文脈的特徴融合を用いた完全畳み込み深度推定ネットワークを提案する。
UNet++やHRNetと比較して、我々は、小さなターゲットや高速移動オブジェクトに関する情報を予約するために、高解像度で低解像度の機能を使用します。
本手法は精度を犠牲にすることなくパラメータを削減する。
論文 参考訳(メタデータ) (2023-09-17T13:40:15Z) - FS-Depth: Focal-and-Scale Depth Estimation from a Single Image in Unseen
Indoor Scene [57.26600120397529]
実際の(見えない)屋内シーンの単一の画像から絶対深度マップを予測するのには、長年不適切な問題だった。
本研究では,未確認屋内シーンの単一画像から絶対深度マップを正確に学習するための焦点・スケール深度推定モデルを開発した。
論文 参考訳(メタデータ) (2023-07-27T04:49:36Z) - Single Image Depth Prediction Made Better: A Multivariate Gaussian Take [163.14849753700682]
本稿では,画素ごとの深度を連続的にモデル化する手法を提案する。
提案手法の精度(MG)は,KITTI深度予測ベンチマークリーダーボードの上位に位置する。
論文 参考訳(メタデータ) (2023-03-31T16:01:03Z) - Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。
次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。
我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-28T16:20:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。