Fugu-MT 論文翻訳(概要): DiffusionDepth: Diffusion Denoising Approach for Monocular Depth Estimation

論文の概要: DiffusionDepth: Diffusion Denoising Approach for Monocular Depth Estimation

arxiv url: http://arxiv.org/abs/2303.05021v3
Date: Mon, 24 Jul 2023 06:06:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-25 23:39:44.506818
Title: DiffusionDepth: Diffusion Denoising Approach for Monocular Depth Estimation
Title（参考訳）: diffusion depth: diffusion denoising approachによる単眼深度推定
Authors: Yiqun Duan, Xianda Guo, Zheng Zhu
Abstract要約: DiffusionDepthは、単分子深度推定をデノナイズ拡散過程として再構成する新しいアプローチである。ランダムな深度分布をモノラルな視覚条件のガイダンスで深度マップに分解する反復的復調過程を学習する。 KITTIとNYU-Depth-V2データセットの実験結果は、シンプルだが効率的な拡散アプローチが、許容可能な推論時間を持つ屋内および屋外の両方のシナリオで最先端のパフォーマンスに達することを示唆している。
参考スコア（独自算出の注目度）: 13.05538140001604
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Monocular depth estimation is a challenging task that predicts the pixel-wise depth from a single 2D image. Current methods typically model this problem as a regression or classification task. We propose DiffusionDepth, a new approach that reformulates monocular depth estimation as a denoising diffusion process. It learns an iterative denoising process to `denoise' random depth distribution into a depth map with the guidance of monocular visual conditions. The process is performed in the latent space encoded by a dedicated depth encoder and decoder. Instead of diffusing ground truth (GT) depth, the model learns to reverse the process of diffusing the refined depth of itself into random depth distribution. This self-diffusion formulation overcomes the difficulty of applying generative models to sparse GT depth scenarios. The proposed approach benefits this task by refining depth estimation step by step, which is superior for generating accurate and highly detailed depth maps. Experimental results on KITTI and NYU-Depth-V2 datasets suggest that a simple yet efficient diffusion approach could reach state-of-the-art performance in both indoor and outdoor scenarios with acceptable inference time.
Abstract（参考訳）: 単眼深度推定は1枚の2次元画像から画素幅の深度を予測する難しい課題である。現在の手法は通常、この問題を回帰または分類タスクとしてモデル化する。単分子深度推定をデノナイズ拡散過程として再構成する新しい手法であるDiffusionDepthを提案する。モノラルな視覚条件の誘導でランダムな深度分布を深度マップに"デノザイズ"する反復的認知過程を学習する。この処理は、専用深度エンコーダおよびデコーダによって符号化された潜時空間で実行される。基底真理(GT)の深さを拡散する代わりに、モデルは自分自身の洗練された深さをランダムな深さ分布に拡散する過程を逆転させることを学ぶ。この自己拡散の定式化は、GT深度シナリオに生成モデルを適用することの難しさを克服する。提案手法は,高精度かつ高精度な深度マップを生成するのに優れている深さ推定ステップを段階的に精錬することで,この課題を活用できる。 KITTIとNYU-Depth-V2データセットの実験結果は、シンプルだが効率的な拡散アプローチが、許容可能な推論時間を持つ屋内および屋外の両方のシナリオで最先端のパフォーマンスに達することを示唆している。

関連論文リスト

BokehDiff: Neural Lens Blur with One-Step Diffusion [53.11429878683807]
ボケフディフ(BokehDiff)は、物理的に正確で視覚的に魅力的な結果が得られるレンズボウ描画法である。提案手法では, 画像形成プロセスと整合する自己認識モジュールを物理に着想を得た。付加雑音を導入することなく1ステップの推論方式に拡散モデルを適応させ,高品質で忠実な結果を得る。
論文参考訳（メタデータ） (2025-07-24T03:23:19Z)
DenseFormer: Learning Dense Depth Map from Sparse Depth and Image via Conditional Diffusion Model [18.694510415777632]
本稿では,拡散モデルを深度完了タスクに統合する新しい手法であるDenseFormerを提案する。 DenseFormerは、複数の反復を通して初期ランダムな深さ分布を漸進的に精製することで、密度の深い深さマップを生成する。本稿では,拡散過程によって生じる深部深部処理に多段階反復改良を適用した深部改良モジュールを提案する。
論文参考訳（メタデータ） (2025-03-31T12:11:01Z)
TransDiff: Diffusion-Based Method for Manipulating Transparent Objects Using a Single RGB-D Image [9.242427101416226]
デスクトップ上での材料に依存しない物体の把握を実現するため,単一ビューのRGB-D-based depth completion frameworkであるTransDiffを提案する。我々は,RGB画像から抽出した特徴(セグメンテーション,エッジマップ,正規マップなど)を,深度マップ生成プロセスの条件として活用する。提案手法は,ランダムな深度分布を深度マップに変換する反復的復調過程を学習し,初期改良された深度情報を用いて導出する。
論文参考訳（メタデータ） (2025-03-17T03:29:37Z)
Marigold-DC: Zero-Shot Monocular Depth Completion with Guided Diffusion [51.69876947593144]
奥行き完了のための既存の手法は、厳密に制約された設定で動作する。単眼深度推定の進歩に触発されて,画像条件の深度マップ生成として深度補完を再構成した。 Marigold-DCは、単分子深度推定のための事前訓練された潜伏拡散モデルを構築し、試験時間ガイダンスとして深度観測を注入する。
論文参考訳（メタデータ） (2024-12-18T00:06:41Z)
Uncertainty-guided Optimal Transport in Depth Supervised Sparse-View 3D Gaussian [49.21866794516328]
3次元ガウシアンスプラッティングは、リアルタイムな新規ビュー合成において顕著な性能を示した。これまでのアプローチでは、3Dガウスの訓練に奥行き監視を取り入れ、オーバーフィッティングを軽減してきた。本研究では,3次元ガウスの深度分布を可視化する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-30T03:18:30Z)
Unveiling the Depths: A Multi-Modal Fusion Framework for Challenging Scenarios [103.72094710263656]
本稿では,学習に基づくフレームワークを用いて,支配的モダリティの奥行きを識別し,統合する手法を提案する。本稿では,信頼度予測ネットワークを操り,潜在電位深度領域を特定する信頼マップを作成する新しい信頼損失を提案する。得られた信頼度マップを用いて,最終深度をエンドツーエンドに融合するマルチモーダル融合ネットワークを提案する。
論文参考訳（メタデータ） (2024-02-19T04:39:16Z)
MonoDiffusion: Self-Supervised Monocular Depth Estimation Using Diffusion Model [17.68594761862957]
我々はMonoDiffusionと呼ばれる新しい自己教師型深度推定フレームワークを導入し,それを反復的復調過程として定式化する。トレーニング段階では深部地下構造は利用できないため,モノ拡散の拡散を補助する擬似地下構造拡散プロセスを開発する。擬似地動拡散は、事前訓練された教師モデルによって生成された深度マップに徐々にノイズを付加する。
論文参考訳（メタデータ） (2023-11-13T09:38:30Z)
Single Image Depth Prediction Made Better: A Multivariate Gaussian Take [163.14849753700682]
本稿では,画素ごとの深度を連続的にモデル化する手法を提案する。提案手法の精度(MG)は,KITTI深度予測ベンチマークリーダーボードの上位に位置する。
論文参考訳（メタデータ） (2023-03-31T16:01:03Z)
SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文参考訳（メタデータ） (2022-11-07T16:17:47Z)
Non-learning Stereo-aided Depth Completion under Mis-projection via Selective Stereo Matching [0.5067618621449753]
一対のステレオ画像で導かれる光検出・測度センサ(LiDAR)を用いて捉えたスパース深度マップの非学習深度補完法を提案する。提案手法は, 平均絶対誤差(MAE)を0.65倍に減らし, 従来よりも約2倍の精度で推定できることを示した。
論文参考訳（メタデータ） (2022-10-04T07:46:56Z)
RA-Depth: Resolution Adaptive Self-Supervised Monocular Depth Estimation [27.679479140943503]
本研究では,シーン深さのスケール不変性を学習し,自己教師付き単眼深度推定法(RA-Depth)を提案する。 RA-Depthは最先端の性能を達成し、解像度適応の優れた能力を示す。
論文参考訳（メタデータ） (2022-07-25T08:49:59Z)
Non-parametric Depth Distribution Modelling based Depth Inference for Multi-view Stereo [43.415242967722804]
最近のコストボリュームピラミッドに基づくディープニューラルネットワークは、多視点ステレオからの深度推論に高解像度の画像を効率的に活用する可能性を解き放った。一般に、これらのアプローチは各ピクセルの深さが一様分布に従うと仮定する。本研究では,非パラメトリック深度分布モデルを用いて,一様および多モード分布の画素を扱うコストボリュームを構築することを提案する。
論文参考訳（メタデータ） (2022-05-08T05:13:04Z)
End-to-end Learning for Joint Depth and Image Reconstruction from Diffracted Rotation [10.896567381206715]
回折回転から深度を学習する新しいエンド・ツー・エンド学習手法を提案する。提案手法は, 単分子深度推定のタスクにおいて既存の手法よりもはるかに少ない複雑なモデルと少ないトレーニングデータを必要とする。
論文参考訳（メタデータ） (2022-04-14T16:14:37Z)
Depth Completion using Plane-Residual Representation [84.63079529738924]
深度情報を最も近い深度平面ラベル$p$と残値$r$で解釈する新しい方法を紹介し,これをPlane-Residual (PR)表現と呼ぶ。 PR表現で深度情報を解釈し,それに対応する深度補完網を用いて,高速な計算により深度補完性能を向上させることができた。
論文参考訳（メタデータ） (2021-04-15T10:17:53Z)
Efficient Depth Completion Using Learned Bases [94.0808155168311]
深度補正のための新しい大域的幾何制約を提案する。低次元部分空間上によく配置される深さ写像を仮定することにより、高密度深度写像は全解像度の主深度基底の重み付け和で近似することができる。
論文参考訳（メタデータ） (2020-12-02T11:57:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。