論文の概要: ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation
- arxiv url: http://arxiv.org/abs/2407.08187v1
- Date: Thu, 11 Jul 2024 05:11:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 18:48:48.880815
- Title: ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation
- Title(参考訳): ScaleDepth: メトリック深さ推定をスケール予測と相対深さ推定に分解する
- Authors: Ruijie Zhu, Chuxin Wang, Ziyang Song, Li Liu, Tianzhu Zhang, Yongdong Zhang,
- Abstract要約: 本研究では,新しい単分子深度推定法であるScaleDepthを提案する。
提案手法は,距離深度をシーンスケールと相対深度に分解し,セマンティック・アウェア・スケール予測モジュールを用いて予測する。
本手法は,室内と屋外の両方のシーンを統一した枠組みで距離推定する。
- 参考スコア(独自算出の注目度): 62.600382533322325
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Estimating depth from a single image is a challenging visual task. Compared to relative depth estimation, metric depth estimation attracts more attention due to its practical physical significance and critical applications in real-life scenarios. However, existing metric depth estimation methods are typically trained on specific datasets with similar scenes, facing challenges in generalizing across scenes with significant scale variations. To address this challenge, we propose a novel monocular depth estimation method called ScaleDepth. Our method decomposes metric depth into scene scale and relative depth, and predicts them through a semantic-aware scale prediction (SASP) module and an adaptive relative depth estimation (ARDE) module, respectively. The proposed ScaleDepth enjoys several merits. First, the SASP module can implicitly combine structural and semantic features of the images to predict precise scene scales. Second, the ARDE module can adaptively estimate the relative depth distribution of each image within a normalized depth space. Third, our method achieves metric depth estimation for both indoor and outdoor scenes in a unified framework, without the need for setting the depth range or fine-tuning model. Extensive experiments demonstrate that our method attains state-of-the-art performance across indoor, outdoor, unconstrained, and unseen scenes. Project page: https://ruijiezhu94.github.io/ScaleDepth
- Abstract(参考訳): 一つの画像から深度を推定することは難しい視覚課題である。
相対的な深度推定と比較すると、実際の物理的重要性と実生活シナリオにおける重要な応用により、メートル法深度推定がより注目される。
しかし、既存の計量深度推定法は、通常、類似したシーンを持つ特定のデータセットで訓練され、大きなスケールのバリエーションを持つシーンを一般化する際の課題に直面している。
この課題に対処するために,ScaleDepthと呼ばれる新しい単分子深度推定法を提案する。
本手法は, 距離深度をシーンスケールと相対深度に分解し, 意味認識スケール予測(SASP)モジュールと適応相対深度推定(ARDE)モジュールで予測する。
提案されているScaleDepthにはいくつかのメリットがある。
まず、SASPモジュールは、画像の構造的特徴と意味的特徴を暗黙的に組み合わせて、正確なシーンスケールを予測する。
第2に、ARDEモジュールは、正規化深度空間内の各画像の相対深度分布を適応的に推定することができる。
第3に,本手法は,奥行き範囲や微調整モデルの設定を必要とせず,室内と屋外の両方のシーンを統一した枠組みで距離推定する。
広汎な実験により,室内,屋外,非拘束,見えない場面にまたがって,最先端のパフォーマンスを実現することができた。
プロジェクトページ:https://ruijiezhu94.github.io/ScaleDepth
関連論文リスト
- Learning to Adapt CLIP for Few-Shot Monocular Depth Estimation [31.34615135846137]
単眼深度推定に視覚言語モデルを適用することを学習する,数発のショットベース手法を提案する。
具体的には、異なるシーンに異なる深度ビンを割り当て、推論中にモデルによって選択できる。
トレーニング用シーンあたりのイメージが1つしかないため、NYU V2とKITTIデータセットによる大規模な実験結果から、我々の手法が従来の最先端の手法を最大10.6%上回っていることが示された。
論文 参考訳(メタデータ) (2023-11-02T06:56:50Z) - Blur aware metric depth estimation with multi-focus plenoptic cameras [8.508198765617196]
多焦点レンズカメラからの原画像のみを用いた新しい距離深度推定アルゴリズムを提案する。
提案手法は、焦点距離の異なる複数のマイクロレンズを用いるマルチフォーカス構成に特に適している。
論文 参考訳(メタデータ) (2023-08-08T13:38:50Z) - FS-Depth: Focal-and-Scale Depth Estimation from a Single Image in Unseen
Indoor Scene [57.26600120397529]
実際の(見えない)屋内シーンの単一の画像から絶対深度マップを予測するのには、長年不適切な問題だった。
本研究では,未確認屋内シーンの単一画像から絶対深度マップを正確に学習するための焦点・スケール深度推定モデルを開発した。
論文 参考訳(メタデータ) (2023-07-27T04:49:36Z) - Self-Supervised Learning based Depth Estimation from Monocular Images [0.0]
単色深度推定の目標は、入力として2次元単色RGB画像が与えられた深度マップを予測することである。
我々は、トレーニング中に固有のカメラパラメータを実行し、我々のモデルをさらに一般化するために天気増悪を適用することを計画している。
論文 参考訳(メタデータ) (2023-04-14T07:14:08Z) - Monocular Visual-Inertial Depth Estimation [66.71452943981558]
単眼深度推定と視覚慣性計測を統合した視覚慣性深度推定パイプラインを提案する。
提案手法は, 疎度度に対する大域的スケールとシフトアライメントを行い, 続いて学習に基づく高密度アライメントを行う。
本研究では,TartanAir と VOID のデータセットを用いて,密集したスケールアライメントによるRMSE の最大30%の削減を観測した。
論文 参考訳(メタデータ) (2023-03-21T18:47:34Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。
次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。
我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-28T16:20:14Z) - MonoIndoor++:Towards Better Practice of Self-Supervised Monocular Depth
Estimation for Indoor Environments [45.89629401768049]
自己監督型単分子深度推定は近年,特に屋外環境において顕著な進歩を遂げている。
しかし、既存のデータの大半を携帯端末で捉えている屋内シーンでは、深度予測結果は満足できない。
室内環境における自己教師型単眼深度推定の性能向上を目的とした,新しいフレームワーク-IndoorMono++を提案する。
論文 参考訳(メタデータ) (2022-07-18T21:34:43Z) - Improving Monocular Visual Odometry Using Learned Depth [84.05081552443693]
単眼深度推定を応用して視力計測(VO)を改善する枠組みを提案する。
我々のフレームワークの中核は、多様なシーンに対して強力な一般化能力を持つ単眼深度推定モジュールである。
現在の学習型VO法と比較して,本手法は多様なシーンに対してより強力な一般化能力を示す。
論文 参考訳(メタデータ) (2022-04-04T06:26:46Z) - Improving Depth Estimation using Location Information [0.0]
本稿では,自己教師型深度学習法の改良を行い,高精度な単眼深度推定を行う。
主なアイデアは、異なるフレームのシーケンスを考慮に入れたディープモデルをトレーニングすることであり、各フレームはその位置情報でタグ付けされる。
論文 参考訳(メタデータ) (2021-12-27T22:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。