論文の概要: Repurposing Diffusion-Based Image Generators for Monocular Depth
Estimation
- arxiv url: http://arxiv.org/abs/2312.02145v1
- Date: Mon, 4 Dec 2023 18:59:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 13:53:56.737077
- Title: Repurposing Diffusion-Based Image Generators for Monocular Depth
Estimation
- Title(参考訳): 単眼深度推定のための拡散画像生成装置
- Authors: Bingxin Ke, Anton Obukhov, Shengyu Huang, Nando Metzger, Rodrigo Caye
Daudt, Konrad Schindler
- Abstract要約: 本稿では,アフィン不変な単分子深度推定法であるMarigoldを紹介する。
合成トレーニングデータのみを使用して、単一のGPU上で数日で微調整できる。
特定のケースで20%以上のパフォーマンス向上を含む、幅広いデータセットで最先端のパフォーマンスを提供する。
- 参考スコア(独自算出の注目度): 21.2446985678711
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monocular depth estimation is a fundamental computer vision task. Recovering
3D depth from a single image is geometrically ill-posed and requires scene
understanding, so it is not surprising that the rise of deep learning has led
to a breakthrough. The impressive progress of monocular depth estimators has
mirrored the growth in model capacity, from relatively modest CNNs to large
Transformer architectures. Still, monocular depth estimators tend to struggle
when presented with images with unfamiliar content and layout, since their
knowledge of the visual world is restricted by the data seen during training,
and challenged by zero-shot generalization to new domains. This motivates us to
explore whether the extensive priors captured in recent generative diffusion
models can enable better, more generalizable depth estimation. We introduce
Marigold, a method for affine-invariant monocular depth estimation that is
derived from Stable Diffusion and retains its rich prior knowledge. The
estimator can be fine-tuned in a couple of days on a single GPU using only
synthetic training data. It delivers state-of-the-art performance across a wide
range of datasets, including over 20% performance gains in specific cases.
Project page: https://marigoldmonodepth.github.io.
- Abstract(参考訳): 単眼深度推定はコンピュータビジョンの基本課題である。
1枚の画像から3D深度を復元することは幾何学的に不適切であり、シーン理解を必要とするため、ディープラーニングの台頭が突破口となったことは驚くにあたらない。
単眼深度推定器の印象的な進歩は、比較的控えめなcnnから大規模なトランスフォーマーアーキテクチャまで、モデルの容量の増加を反映している。
それでも、単眼深度推定器は、トレーニング中に見られるデータによって視覚世界に関する知識が制限され、新しい領域へのゼロショット一般化によって挑戦されるため、不慣れな内容とレイアウトの画像を提示する際に苦労する傾向がある。
このことは、最近の生成拡散モデルで得られた広範囲の事前がより良く、より一般化可能な深さ推定を可能にするかどうかを探求する動機となる。
本稿では,安定拡散から導出され,その豊富な事前知識を保ったアフィン不変単項深さ推定法marigoldを提案する。
この推定器は、合成トレーニングデータのみを使用して、単一のGPU上で数日で微調整できる。
特定のケースで20%以上のパフォーマンス向上を含む、幅広いデータセットで最先端のパフォーマンスを提供する。
プロジェクトページ: https://marigoldmonodepth.github.io
関連論文リスト
- MetricGold: Leveraging Text-To-Image Latent Diffusion Models for Metric Depth Estimation [9.639797094021988]
MetricGoldは、生成拡散モデルの豊富な先行値を利用して、メートル法深さ推定を改善する新しいアプローチである。
我々の実験は、多様なデータセットをまたいだ堅牢な一般化を実証し、よりシャープで高品質なメートル法深さ推定を導出する。
論文 参考訳(メタデータ) (2024-11-16T20:59:01Z) - Robust Geometry-Preserving Depth Estimation Using Differentiable
Rendering [93.94371335579321]
我々は、余分なデータやアノテーションを必要とせずに、幾何学保存深度を予測するためにモデルを訓練する学習フレームワークを提案する。
包括的な実験は、我々のフレームワークの優れた一般化能力を強調します。
我々の革新的な損失関数は、ドメイン固有のスケール・アンド・シフト係数を自律的に復元するモデルを可能にします。
論文 参考訳(メタデータ) (2023-09-18T12:36:39Z) - Self-Supervised Learning based Depth Estimation from Monocular Images [0.0]
単色深度推定の目標は、入力として2次元単色RGB画像が与えられた深度マップを予測することである。
我々は、トレーニング中に固有のカメラパラメータを実行し、我々のモデルをさらに一般化するために天気増悪を適用することを計画している。
論文 参考訳(メタデータ) (2023-04-14T07:14:08Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。
次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。
我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-28T16:20:14Z) - Virtual Normal: Enforcing Geometric Constraints for Accurate and Robust
Depth Prediction [87.08227378010874]
深度予測における高次3次元幾何学的制約の重要性を示す。
単純な幾何学的制約を強制する損失項を設計することにより、単眼深度推定の精度とロバスト性を大幅に改善する。
The-of-the-art results of learning metric depth on NYU Depth-V2 and KITTI。
論文 参考訳(メタデータ) (2021-03-07T00:08:21Z) - Learning to Recover 3D Scene Shape from a Single Image [98.20106822614392]
まず,未知のスケールまで深さを予測し,単一の単眼画像からシフトする2段階フレームワークを提案する。
そして、3dポイントクラウドエンコーダを使って深度シフトと焦点距離を予測し、リアルな3dシーンの形状を復元します。
論文 参考訳(メタデータ) (2020-12-17T02:35:13Z) - Don't Forget The Past: Recurrent Depth Estimation from Monocular Video [92.84498980104424]
私たちは3つの異なる種類の深さ推定を共通のフレームワークに組み込んだ。
提案手法は, 時系列の深度マップを生成する。
モノクロビデオにのみ適用したり、異なる種類のスパース深度パターンと組み合わせたりすることができる。
論文 参考訳(メタデータ) (2020-01-08T16:50:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。