論文の概要: DiffusionDepth: Diffusion Denoising Approach for Monocular Depth
Estimation
- arxiv url: http://arxiv.org/abs/2303.05021v4
- Date: Tue, 29 Aug 2023 05:20:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 18:47:32.736783
- Title: DiffusionDepth: Diffusion Denoising Approach for Monocular Depth
Estimation
- Title(参考訳): diffusion depth: diffusion denoising approachによる単眼深度推定
- Authors: Yiqun Duan, Xianda Guo, Zheng Zhu
- Abstract要約: DiffusionDepthは、単分子深度推定をデノナイズ拡散過程として再構成する新しいアプローチである。
ランダムな深度分布をモノラルな視覚条件のガイダンスで深度マップに分解する反復的復調過程を学習する。
KITTIとNYU-Depth-V2データセットの実験結果は、シンプルだが効率的な拡散アプローチが、許容可能な推論時間を持つ屋内および屋外の両方のシナリオで最先端のパフォーマンスに達することを示唆している。
- 参考スコア(独自算出の注目度): 23.22005119986485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular depth estimation is a challenging task that predicts the pixel-wise
depth from a single 2D image. Current methods typically model this problem as a
regression or classification task. We propose DiffusionDepth, a new approach
that reformulates monocular depth estimation as a denoising diffusion process.
It learns an iterative denoising process to `denoise' random depth distribution
into a depth map with the guidance of monocular visual conditions. The process
is performed in the latent space encoded by a dedicated depth encoder and
decoder. Instead of diffusing ground truth (GT) depth, the model learns to
reverse the process of diffusing the refined depth of itself into random depth
distribution. This self-diffusion formulation overcomes the difficulty of
applying generative models to sparse GT depth scenarios. The proposed approach
benefits this task by refining depth estimation step by step, which is superior
for generating accurate and highly detailed depth maps. Experimental results on
KITTI and NYU-Depth-V2 datasets suggest that a simple yet efficient diffusion
approach could reach state-of-the-art performance in both indoor and outdoor
scenarios with acceptable inference time.
- Abstract(参考訳): 単眼深度推定は1枚の2次元画像から画素幅の深度を予測する難しい課題である。
現在の手法は通常、この問題を回帰または分類タスクとしてモデル化する。
単分子深度推定をデノナイズ拡散過程として再構成する新しい手法であるDiffusionDepthを提案する。
モノラルな視覚条件の誘導でランダムな深度分布を深度マップに"デノザイズ"する反復的認知過程を学習する。
この処理は、専用深度エンコーダおよびデコーダによって符号化された潜時空間で実行される。
基底真理(GT)の深さを拡散する代わりに、モデルは自分自身の洗練された深さをランダムな深さ分布に拡散する過程を逆転させることを学ぶ。
この自己拡散の定式化は、GT深度シナリオに生成モデルを適用することの難しさを克服する。
提案手法は,高精度かつ高精度な深度マップを生成するのに優れている深さ推定ステップを段階的に精錬することで,この課題を活用できる。
KITTIとNYU-Depth-V2データセットの実験結果は、シンプルだが効率的な拡散アプローチが、許容可能な推論時間を持つ屋内および屋外の両方のシナリオで最先端のパフォーマンスに達することを示唆している。
関連論文リスト
- Uncertainty-guided Optimal Transport in Depth Supervised Sparse-View 3D Gaussian [49.21866794516328]
3次元ガウシアンスプラッティングは、リアルタイムな新規ビュー合成において顕著な性能を示した。
これまでのアプローチでは、3Dガウスの訓練に奥行き監視を取り入れ、オーバーフィッティングを軽減してきた。
本研究では,3次元ガウスの深度分布を可視化する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:18:30Z) - Unveiling the Depths: A Multi-Modal Fusion Framework for Challenging
Scenarios [103.72094710263656]
本稿では,学習に基づくフレームワークを用いて,支配的モダリティの奥行きを識別し,統合する手法を提案する。
本稿では,信頼度予測ネットワークを操り,潜在電位深度領域を特定する信頼マップを作成する新しい信頼損失を提案する。
得られた信頼度マップを用いて,最終深度をエンドツーエンドに融合するマルチモーダル融合ネットワークを提案する。
論文 参考訳(メタデータ) (2024-02-19T04:39:16Z) - MonoDiffusion: Self-Supervised Monocular Depth Estimation Using
Diffusion Model [17.68594761862957]
我々はMonoDiffusionと呼ばれる新しい自己教師型深度推定フレームワークを導入し,それを反復的復調過程として定式化する。
トレーニング段階では深部地下構造は利用できないため,モノ拡散の拡散を補助する擬似地下構造拡散プロセスを開発する。
擬似地動拡散は、事前訓練された教師モデルによって生成された深度マップに徐々にノイズを付加する。
論文 参考訳(メタデータ) (2023-11-13T09:38:30Z) - Single Image Depth Prediction Made Better: A Multivariate Gaussian Take [163.14849753700682]
本稿では,画素ごとの深度を連続的にモデル化する手法を提案する。
提案手法の精度(MG)は,KITTI深度予測ベンチマークリーダーボードの上位に位置する。
論文 参考訳(メタデータ) (2023-03-31T16:01:03Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - Non-learning Stereo-aided Depth Completion under Mis-projection via
Selective Stereo Matching [0.5067618621449753]
一対のステレオ画像で導かれる光検出・測度センサ(LiDAR)を用いて捉えたスパース深度マップの非学習深度補完法を提案する。
提案手法は, 平均絶対誤差(MAE)を0.65倍に減らし, 従来よりも約2倍の精度で推定できることを示した。
論文 参考訳(メタデータ) (2022-10-04T07:46:56Z) - RA-Depth: Resolution Adaptive Self-Supervised Monocular Depth Estimation [27.679479140943503]
本研究では,シーン深さのスケール不変性を学習し,自己教師付き単眼深度推定法(RA-Depth)を提案する。
RA-Depthは最先端の性能を達成し、解像度適応の優れた能力を示す。
論文 参考訳(メタデータ) (2022-07-25T08:49:59Z) - Non-parametric Depth Distribution Modelling based Depth Inference for
Multi-view Stereo [43.415242967722804]
最近のコストボリュームピラミッドに基づくディープニューラルネットワークは、多視点ステレオからの深度推論に高解像度の画像を効率的に活用する可能性を解き放った。
一般に、これらのアプローチは各ピクセルの深さが一様分布に従うと仮定する。
本研究では,非パラメトリック深度分布モデルを用いて,一様および多モード分布の画素を扱うコストボリュームを構築することを提案する。
論文 参考訳(メタデータ) (2022-05-08T05:13:04Z) - End-to-end Learning for Joint Depth and Image Reconstruction from
Diffracted Rotation [10.896567381206715]
回折回転から深度を学習する新しいエンド・ツー・エンド学習手法を提案する。
提案手法は, 単分子深度推定のタスクにおいて既存の手法よりもはるかに少ない複雑なモデルと少ないトレーニングデータを必要とする。
論文 参考訳(メタデータ) (2022-04-14T16:14:37Z) - Depth Completion using Plane-Residual Representation [84.63079529738924]
深度情報を最も近い深度平面ラベル$p$と残値$r$で解釈する新しい方法を紹介し,これをPlane-Residual (PR)表現と呼ぶ。
PR表現で深度情報を解釈し,それに対応する深度補完網を用いて,高速な計算により深度補完性能を向上させることができた。
論文 参考訳(メタデータ) (2021-04-15T10:17:53Z) - Efficient Depth Completion Using Learned Bases [94.0808155168311]
深度補正のための新しい大域的幾何制約を提案する。
低次元部分空間上によく配置される深さ写像を仮定することにより、高密度深度写像は全解像度の主深度基底の重み付け和で近似することができる。
論文 参考訳(メタデータ) (2020-12-02T11:57:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。