論文の概要: Monocular Depth Estimation using Diffusion Models
- arxiv url: http://arxiv.org/abs/2302.14816v1
- Date: Tue, 28 Feb 2023 18:08:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 15:04:13.627822
- Title: Monocular Depth Estimation using Diffusion Models
- Title(参考訳): 拡散モデルを用いた単眼深度推定
- Authors: Saurabh Saxena, Abhishek Kar, Mohammad Norouzi, David J. Fleet
- Abstract要約: トレーニングデータにおけるノイズや不完全な深度マップに起因する問題に対処するイノベーションを導入する。
教師付き訓練におけるデータの可用性の限界に対処するために,自己教師付き画像-画像間翻訳タスクの事前学習を利用する。
我々のDepthGenモデルは、屋内のNYUデータセット上で、および屋外のKITTIデータセット上でのSOTA結果に近いSOTA性能を達成する。
- 参考スコア(独自算出の注目度): 39.27361388836347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We formulate monocular depth estimation using denoising diffusion models,
inspired by their recent successes in high fidelity image generation. To that
end, we introduce innovations to address problems arising due to noisy,
incomplete depth maps in training data, including step-unrolled denoising
diffusion, an $L_1$ loss, and depth infilling during training. To cope with the
limited availability of data for supervised training, we leverage pre-training
on self-supervised image-to-image translation tasks. Despite the simplicity of
the approach, with a generic loss and architecture, our DepthGen model achieves
SOTA performance on the indoor NYU dataset, and near SOTA results on the
outdoor KITTI dataset. Further, with a multimodal posterior, DepthGen naturally
represents depth ambiguity (e.g., from transparent surfaces), and its zero-shot
performance combined with depth imputation, enable a simple but effective
text-to-3D pipeline. Project page: https://depth-gen.github.io
- Abstract(参考訳): 偏光拡散モデルを用いて単眼深度推定を定式化し、高忠実度画像生成における最近の成功に触発された。
そこで,本研究では,学習データにおけるノイズや不完全深度マップ,ステップアンロールデノナイジング拡散,損失$L_1,トレーニング中の深度埋め込みといった問題に対処するイノベーションを導入する。
教師付き訓練におけるデータの可用性の限界に対処するために,自己教師付き画像-画像間翻訳タスクの事前学習を利用する。
このアプローチの単純さと汎用的な損失とアーキテクチャにもかかわらず、深度モデルでは屋内nyuデータセットでsota性能を達成し、屋外kittiデータセットではsotaに近い結果が得られる。
さらに、マルチモーダル後方では、deepgenは自然に深さの曖昧さ(例えば透明な表面から)を表し、そのゼロショット性能と深さのインプテーションを組み合わせることで、シンプルで効果的なテキストから3dパイプラインを可能にする。
プロジェクトページ: https://depth-gen.github.io
関連論文リスト
- Unsupervised Monocular Depth Estimation Based on Hierarchical Feature-Guided Diffusion [21.939618694037108]
教師なし単分子深度推定は、地上の真実を示さずに訓練できるため、広く注目を集めている。
我々は、教師なし単眼深度推定のために、生成ネットワーク間でよく収束する拡散モデルを用いる。
このモデルは深度分布の学習と解釈の能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-06-14T07:31:20Z) - Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation [20.230238670888454]
本稿では,アフィン不変な単分子深度推定法であるMarigoldを紹介する。
合成トレーニングデータのみを使用して、単一のGPU上で数日で微調整できる。
特定のケースで20%以上のパフォーマンス向上を含む、幅広いデータセットで最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-12-04T18:59:13Z) - AugUndo: Scaling Up Augmentations for Monocular Depth Completion and Estimation [51.143540967290114]
本研究では,教師なし深度計算と推定のために,従来不可能であった幾何拡張の幅広い範囲をアンロックする手法を提案する。
これは、出力深さの座標への幾何変換を反転、あるいはアンドウイング(undo''-ing)し、深度マップを元の参照フレームに戻すことで達成される。
論文 参考訳(メタデータ) (2023-10-15T05:15:45Z) - DiffusionDepth: Diffusion Denoising Approach for Monocular Depth
Estimation [23.22005119986485]
DiffusionDepthは、単分子深度推定をデノナイズ拡散過程として再構成する新しいアプローチである。
ランダムな深度分布をモノラルな視覚条件のガイダンスで深度マップに分解する反復的復調過程を学習する。
KITTIとNYU-Depth-V2データセットの実験結果は、シンプルだが効率的な拡散アプローチが、許容可能な推論時間を持つ屋内および屋外の両方のシナリオで最先端のパフォーマンスに達することを示唆している。
論文 参考訳(メタデータ) (2023-03-09T03:48:24Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。
次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。
我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-28T16:20:14Z) - Joint Prediction of Monocular Depth and Structure using Planar and
Parallax Geometry [4.620624344434533]
教師付き学習深度推定法は、LiDARデータのような高品質な地上構造で訓練すると、優れた性能が得られる。
提案手法は,有望な平面とパララックス幾何学パイプラインの構造情報と深度情報を組み合わせたU-Net教師あり学習ネットワークの構築である。
我々のモデルは細い物体と縁の深さ予測に優れており、構造予測ベースラインと比較して、より頑健に機能する。
論文 参考訳(メタデータ) (2022-07-13T17:04:05Z) - Virtual Normal: Enforcing Geometric Constraints for Accurate and Robust
Depth Prediction [87.08227378010874]
深度予測における高次3次元幾何学的制約の重要性を示す。
単純な幾何学的制約を強制する損失項を設計することにより、単眼深度推定の精度とロバスト性を大幅に改善する。
The-of-the-art results of learning metric depth on NYU Depth-V2 and KITTI。
論文 参考訳(メタデータ) (2021-03-07T00:08:21Z) - SelfDeco: Self-Supervised Monocular Depth Completion in Challenging
Indoor Environments [50.761917113239996]
自己教師付き単分子深度補完のための新しいアルゴリズムを提案する。
提案手法は,深度ラベルを含まない疎深度測定とそれに対応する単眼ビデオシーケンスのみを必要とするニューラルネットワークのトレーニングに基づく。
我々の自己監督アルゴリズムは、テクスチャのない領域、光沢のない透明な表面、非ランバートの表面、動く人々、より長く多様な深度範囲、複雑なエゴモーションによって捉えられたシーンを含む屋内環境に挑戦するために設計されている。
論文 参考訳(メタデータ) (2020-11-10T08:55:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。