Fugu-MT 論文翻訳(概要): Depth Pro: Sharp Monocular Metric Depth in Less Than a Second

論文の概要: Depth Pro: Sharp Monocular Metric Depth in Less Than a Second

arxiv url: http://arxiv.org/abs/2410.02073v1
Date: Wed, 2 Oct 2024 22:42:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-04 09:05:40.830395
Title: Depth Pro: Sharp Monocular Metric Depth in Less Than a Second
Title（参考訳）: Depth Pro:シャープ単分子メートルの深さは1秒以下
Authors: Aleksei Bochkovskii, Amaël Delaunoy, Hugo Germain, Marcel Santos, Yichao Zhou, Stephan R. Richter, Vladlen Koltun,
Abstract要約: ゼロショット距離単眼深度推定のための基礎モデルを提案する。我々のモデルであるDepth Proは、非並列のシャープネスと高周波の詳細で高分解能深度マップを合成する。標準GPUで0.3秒で2.25メガピクセルの深度マップを生成する。
参考スコア（独自算出の注目度）: 45.6690958201871
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a foundation model for zero-shot metric monocular depth estimation. Our model, Depth Pro, synthesizes high-resolution depth maps with unparalleled sharpness and high-frequency details. The predictions are metric, with absolute scale, without relying on the availability of metadata such as camera intrinsics. And the model is fast, producing a 2.25-megapixel depth map in 0.3 seconds on a standard GPU. These characteristics are enabled by a number of technical contributions, including an efficient multi-scale vision transformer for dense prediction, a training protocol that combines real and synthetic datasets to achieve high metric accuracy alongside fine boundary tracing, dedicated evaluation metrics for boundary accuracy in estimated depth maps, and state-of-the-art focal length estimation from a single image. Extensive experiments analyze specific design choices and demonstrate that Depth Pro outperforms prior work along multiple dimensions. We release code and weights at https://github.com/apple/ml-depth-pro
Abstract（参考訳）: ゼロショット距離単眼深度推定のための基礎モデルを提案する。我々のモデルであるDepth Proは、非並列のシャープネスと高周波の詳細で高分解能深度マップを合成する。予測は、カメラ固有のようなメタデータの可用性に頼ることなく、絶対スケールでメトリックである。モデルは高速で、標準的なGPUで0.3秒で2.25メガピクセルの深度マップを生成する。これらの特徴は、高密度な予測のための効率的なマルチスケール視覚変換器、実際のデータセットと合成データセットを組み合わせて、詳細な境界追跡とともに高い計量精度を達成するためのトレーニングプロトコル、推定深度マップにおける境界精度の専用評価指標、単一画像からの最先端焦点距離推定など、多くの技術的貢献によって実現されている。大規模な実験は、特定の設計選択を分析し、Depth Proが複数の次元に沿って前の作業より優れていることを示す。コードと重みはhttps://github.com/apple/ml-depth-proで公開しています。

関連論文リスト

A Simple yet Effective Test-Time Adaptation for Zero-Shot Monocular Metric Depth Estimation [46.037640130193566]
センサや低分解能LiDARなどの技術によって提供される3Dポイントや、IMUが提示したポーズによる構造移動を用いて、奥行きの予測を再現する新しい手法を提案する。実験では, ゼロショット単角距離推定法, 微調整法と比較しての競合性, 深度補修法よりも頑健さが向上した。
論文参考訳（メタデータ） (2024-12-18T17:50:15Z)
Single-Shot Metric Depth from Focused Plenoptic Cameras [18.412662939667676]
視覚センサによる距離推定は、ロボットが環境を知覚し、ナビゲートし、操作するために不可欠である。光電界イメージングは、単一のデバイスを通してユニークなレンズ構成を使用することで、メートル法深度を推定するための有望なソリューションを提供する。我々の研究は、高密度なメートル法深度のための集束型レンズカメラの可能性を探究する。
論文参考訳（メタデータ） (2024-12-03T11:21:17Z)
SharpDepth: Sharpening Metric Depth Predictions Using Diffusion Distillation [17.88798247412388]
SharpDepthは、識別深度推定法の計量精度と、生成法によって通常達成されるきめ細かい境界シャープネスを組み合わせている。我々の手法は、距離精度と詳細な境界保存を統合することでこれらの制限を橋渡しし、計量的精度と視覚的シャープさの両方の深さ予測をもたらす。
論文参考訳（メタデータ） (2024-11-27T11:07:27Z)
Self-supervised Monocular Depth Estimation with Large Kernel Attention [30.44895226042849]
より詳細な情報を得るために,自己教師付き単眼深度推定ネットワークを提案する。具体的には,長距離依存性をモデル化可能なカーネルアテンションに基づくデコーダを提案する。提案手法は,KITTIデータセット上での競合結果を実現する。
論文参考訳（メタデータ） (2024-09-26T14:44:41Z)
HybridDepth: Robust Metric Depth Fusion by Leveraging Depth from Focus and Single-Image Priors [10.88048563201236]
本稿では,深度推定における重要な課題に対処する頑健な深度推定パイプラインHYBRIDDEPTHを提案する。 HYBRIDDEPTHは、一般的なモバイルデバイスで便利なデータである焦点スタックを活用して、正確な距離深度マップを生成する。包括的定量的および定性的分析により、HYBRIDDEPTHは最先端(SOTA)モデルより優れていることが示された。
論文参考訳（メタデータ） (2024-07-26T00:51:52Z)
ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation [62.600382533322325]
本研究では,新しい単分子深度推定法であるScaleDepthを提案する。提案手法は,距離深度をシーンスケールと相対深度に分解し,セマンティック・アウェア・スケール予測モジュールを用いて予測する。本手法は,室内と屋外の両方のシーンを統一した枠組みで距離推定する。
論文参考訳（メタデータ） (2024-07-11T05:11:56Z)
Metric3Dv2: A Versatile Monocular Geometric Foundation Model for Zero-shot Metric Depth and Surface Normal Estimation [74.28509379811084]
Metric3D v2は、ゼロショット距離深さと1枚の画像からの表面正規推定のための幾何学的基礎モデルである。距離深度推定と表面正規度推定の両方の解を提案する。本手法は, ランダムに収集したインターネット画像上での計測3次元構造の正確な復元を可能にする。
論文参考訳（メタデータ） (2024-03-22T02:30:46Z)
Metrically Scaled Monocular Depth Estimation through Sparse Priors for Underwater Robots [0.0]
三角特徴量からのスパース深度測定を融合して深度予測を改善する深度学習モデルを定式化する。このネットワークは、前方に見える水中データセットFLSeaで教師ありの方法で訓練されている。この方法は、ラップトップGPUで160FPS、単一のCPUコアで7FPSで実行することで、リアルタイムのパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-10-25T16:32:31Z)
Deep Neighbor Layer Aggregation for Lightweight Self-Supervised Monocular Depth Estimation [1.6775954077761863]
文脈的特徴融合を用いた完全畳み込み深度推定ネットワークを提案する。 UNet++やHRNetと比較して、我々は、小さなターゲットや高速移動オブジェクトに関する情報を予約するために、高解像度で低解像度の機能を使用します。本手法は精度を犠牲にすることなくパラメータを削減する。
論文参考訳（メタデータ） (2023-09-17T13:40:15Z)
FS-Depth: Focal-and-Scale Depth Estimation from a Single Image in Unseen Indoor Scene [57.26600120397529]
実際の(見えない)屋内シーンの単一の画像から絶対深度マップを予測するのには、長年不適切な問題だった。本研究では,未確認屋内シーンの単一画像から絶対深度マップを正確に学習するための焦点・スケール深度推定モデルを開発した。
論文参考訳（メタデータ） (2023-07-27T04:49:36Z)
Single Image Depth Prediction Made Better: A Multivariate Gaussian Take [163.14849753700682]
本稿では,画素ごとの深度を連続的にモデル化する手法を提案する。提案手法の精度(MG)は,KITTI深度予測ベンチマークリーダーボードの上位に位置する。
論文参考訳（メタデータ） (2023-03-31T16:01:03Z)
Towards Accurate Reconstruction of 3D Scene Shape from A Single Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-08-28T16:20:14Z)
Boosting Monocular Depth Estimation Models to High-Resolution via Content-Adaptive Multi-Resolution Merging [14.279471205248534]
本研究では,一貫したシーン構造と高周波の詳細が深度推定性能に与える影響を示す。本稿では,画像全体の深さ推定を改善する二重推定法と,局所的な詳細を付加するパッチ選択法を提案する。異なる解像度での推定とコンテキストの変化を組み合わせることで、高精細度でマルチメガピクセルの深度マップを作成できることを実証した。
論文参考訳（メタデータ） (2021-05-28T17:55:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。