論文の概要: PrimeDepth: Efficient Monocular Depth Estimation with a Stable Diffusion Preimage
- arxiv url: http://arxiv.org/abs/2409.09144v1
- Date: Fri, 13 Sep 2024 19:03:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 22:09:06.780588
- Title: PrimeDepth: Efficient Monocular Depth Estimation with a Stable Diffusion Preimage
- Title(参考訳): PrimeDepth: 安定拡散予測を用いた効率的な単眼深度推定
- Authors: Denis Zavadski, Damjan Kalšan, Carsten Rother,
- Abstract要約: この研究はゼロショット単眼深度推定の課題に対処する。
この分野での最近の進歩は、安定拡散のようなテキスト・ツー・イメージの基礎モデルを活用するというアイデアである。
拡散型アプローチの正の側面を保ちつつ、あるいは強化しながら、テスト時に高い効率を発揮できる方法であるPrimeDepthを提案する。
- 参考スコア(独自算出の注目度): 19.02295657801464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work addresses the task of zero-shot monocular depth estimation. A recent advance in this field has been the idea of utilising Text-to-Image foundation models, such as Stable Diffusion. Foundation models provide a rich and generic image representation, and therefore, little training data is required to reformulate them as a depth estimation model that predicts highly-detailed depth maps and has good generalisation capabilities. However, the realisation of this idea has so far led to approaches which are, unfortunately, highly inefficient at test-time due to the underlying iterative denoising process. In this work, we propose a different realisation of this idea and present PrimeDepth, a method that is highly efficient at test time while keeping, or even enhancing, the positive aspects of diffusion-based approaches. Our key idea is to extract from Stable Diffusion a rich, but frozen, image representation by running a single denoising step. This representation, we term preimage, is then fed into a refiner network with an architectural inductive bias, before entering the downstream task. We validate experimentally that PrimeDepth is two orders of magnitude faster than the leading diffusion-based method, Marigold, while being more robust for challenging scenarios and quantitatively marginally superior. Thereby, we reduce the gap to the currently leading data-driven approach, Depth Anything, which is still quantitatively superior, but predicts less detailed depth maps and requires 20 times more labelled data. Due to the complementary nature of our approach, even a simple averaging between PrimeDepth and Depth Anything predictions can improve upon both methods and sets a new state-of-the-art in zero-shot monocular depth estimation. In future, data-driven approaches may also benefit from integrating our preimage.
- Abstract(参考訳): この研究はゼロショット単眼深度推定の課題に対処する。
この分野での最近の進歩は、安定拡散のようなテキスト・ツー・イメージの基礎モデルを活用するというアイデアである。
基礎モデルは、リッチで汎用的な画像表現を提供するため、高度に詳細化された深度マップを予測し、優れた一般化能力を有する深度推定モデルとしてそれらを再構成するためには、ほとんど訓練データを必要としない。
しかし、このアイデアの実現は、残念なことに、その根底にある反復的妄想プロセスのために、テスト時に非常に非効率なアプローチへと導いてきた。
本研究では, このアイデアの異なる実現法を提案し, 拡散型アプローチの正の側面を保ちつつ, あるいは強化しながら, テスト時に高い効率を発揮できる手法であるPrimeDepthを提案する。
私たちのキーとなるアイデアは、安定拡散(Stable Diffusion)から、ひとつのデノゲーションステップを実行することで、リッチだがフリーズされたイメージ表現を抽出することです。
プレイメージと呼ばれるこの表現は、下流のタスクに入る前に、アーキテクチャ上の帰納バイアスのある洗練されたネットワークに送られます。
我々は,PrimeDepthが主要な拡散法であるMarigoldよりも2桁高速であり,挑戦的なシナリオに対してより堅牢であり,定量的に優れていることを実験的に検証した。
これにより、現在主要なデータ駆動アプローチであるDepth Anythingとのギャップを減らします。
このアプローチの相補的な性質から、PrimeDepthとDepth Anythingの単純な平均化さえも、両方の手法を改善し、ゼロショット単眼深度推定における新しい最先端の手法を設定することができる。
将来的には、データ駆動アプローチは、事前イメージの統合の恩恵を受けるかもしれません。
関連論文リスト
- bit2bit: 1-bit quanta video reconstruction via self-supervised photon prediction [57.199618102578576]
疎二分量時間画像データから高画質の画像スタックを元の解像度で再構成する新しい方法であるbit2bitを提案する。
Poisson denoisingの最近の研究に触発されて、スパースバイナリ光子データから高密度な画像列を生成するアルゴリズムを開発した。
本研究では,様々な課題の画像条件下でのSPADの高速映像を多種多種に含む新しいデータセットを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:30:35Z) - Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。
本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think [53.2706196341054]
認識された非効率性は、これまで気付かれなかった推論パイプラインの欠陥によって引き起こされたことを示している。
タスク固有の損失を伴う単一ステップモデル上でエンドツーエンドの微調整を行い、他の拡散に基づく深さモデルや正規推定モデルよりも優れた決定論的モデルを得る。
論文 参考訳(メタデータ) (2024-09-17T16:58:52Z) - DepthFM: Fast Monocular Depth Estimation with Flow Matching [22.206355073676082]
この問題に対する現在の差別的アプローチは、ぼやけた人工物のために限られている。
最先端の生成法は、SDEの性質上、サンプリングが遅い。
解空間を通した直線軌道は効率と高品質を提供するので,フローマッチングを用いて効果的にフレーム化することができる。
論文 参考訳(メタデータ) (2024-03-20T17:51:53Z) - Exploiting Diffusion Prior for Generalizable Dense Prediction [85.4563592053464]
近年のテキスト・トゥ・イメージ(T2I)拡散モデルでは、既成の高密度予測器では予測できないことがある。
我々は,事前学習したT2Iモデルを用いたパイプラインDMPを,高密度予測タスクの先駆けとして導入する。
限られたドメインのトレーニングデータにもかかわらず、この手法は任意の画像に対して忠実に推定し、既存の最先端のアルゴリズムを超越する。
論文 参考訳(メタデータ) (2023-11-30T18:59:44Z) - Deep Richardson-Lucy Deconvolution for Low-Light Image Deblurring [48.80983873199214]
我々は,飽和画素を学習潜時マップでモデル化するデータ駆動型手法を開発した。
新しいモデルに基づいて、非盲検除色タスクを最大後部(MAP)問題に定式化することができる。
増幅されたアーティファクトを使わずに高品質な劣化画像を推定するために,我々は事前推定ネットワークを構築した。
論文 参考訳(メタデータ) (2023-08-10T12:53:30Z) - DiffusionDepth: Diffusion Denoising Approach for Monocular Depth
Estimation [23.22005119986485]
DiffusionDepthは、単分子深度推定をデノナイズ拡散過程として再構成する新しいアプローチである。
ランダムな深度分布をモノラルな視覚条件のガイダンスで深度マップに分解する反復的復調過程を学習する。
KITTIとNYU-Depth-V2データセットの実験結果は、シンプルだが効率的な拡散アプローチが、許容可能な推論時間を持つ屋内および屋外の両方のシナリオで最先端のパフォーマンスに達することを示唆している。
論文 参考訳(メタデータ) (2023-03-09T03:48:24Z) - Uncertainty-Aware Unsupervised Image Deblurring with Deep Residual Prior [23.417096880297702]
非ブラインドデブロワー法は、正確なぼやけたカーネル仮定の下で良好な性能を達成する。
ドメイン知識を取り入れた手作りの事前処理は、一般的によく機能するが、カーネル(または誘導)エラーが複雑である場合には性能が低下する可能性がある。
トレーニングデータの多様性と多さに過度に依存するデータ駆動事前は、アウト・オブ・ディストリビューションの曖昧さやイメージに対して脆弱である。
本稿では,ぼやけた画像から潜像を復元し,不正確なぼやけたカーネルを復元する,教師なしセミブレンドデブロアリングモデルを提案する。
論文 参考訳(メタデータ) (2022-10-09T11:10:59Z) - Learning Monocular Dense Depth from Events [53.078665310545745]
イベントカメラは、強度フレームではなく、非同期イベントのストリームの形式で輝度を変化させる。
最近の学習に基づくアプローチは、単眼深度予測のようなイベントベースのデータに適用されている。
本稿では,この課題を解決するための繰り返しアーキテクチャを提案し,標準フィードフォワード法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-16T12:36:23Z) - AcED: Accurate and Edge-consistent Monocular Depth Estimation [0.0]
単一画像深度推定は難しい問題である。
完全に微分可能な順序回帰を定式化し、エンドツーエンドでネットワークを訓練する。
深度補正のための画素ごとの信頼度マップ計算も提案した。
論文 参考訳(メタデータ) (2020-06-16T15:21:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。