論文の概要: DAG: Depth-Aware Guidance with Denoising Diffusion Probabilistic Models
- arxiv url: http://arxiv.org/abs/2212.08861v1
- Date: Sat, 17 Dec 2022 12:47:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 17:24:36.667204
- Title: DAG: Depth-Aware Guidance with Denoising Diffusion Probabilistic Models
- Title(参考訳): DAG:拡散確率モデルに基づく深度誘導
- Authors: Gyeongnyeon Kim, Wooseok Jang, Gyuseong Lee, Susung Hong, Junyoung
Seo, Seungryong Kim
- Abstract要約: 拡散モデルの豊かな中間表現から得られた推定深度情報を利用する拡散モデルのための新しいガイダンス手法を提案する。
実験と広範囲にわたるアブレーション研究により,幾何学的に妥当な画像生成に向けた拡散モデルの導出における本手法の有効性が示された。
- 参考スコア(独自算出の注目度): 23.70476220346754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, generative models have undergone significant advancement due
to the success of diffusion models. The success of these models is often
attributed to their use of guidance techniques, such as classifier and
classifier-free methods, which provides effective mechanisms to trade-off
between fidelity and diversity. However, these methods are not capable of
guiding a generated image to be aware of its geometric configuration, e.g.,
depth, which hinders the application of diffusion models to areas that require
a certain level of depth awareness. To address this limitation, we propose a
novel guidance approach for diffusion models that uses estimated depth
information derived from the rich intermediate representations of diffusion
models. To do this, we first present a label-efficient depth estimation
framework using the internal representations of diffusion models. At the
sampling phase, we utilize two guidance techniques to self-condition the
generated image using the estimated depth map, the first of which uses
pseudo-labeling, and the subsequent one uses a depth-domain diffusion prior.
Experiments and extensive ablation studies demonstrate the effectiveness of our
method in guiding the diffusion models toward geometrically plausible image
generation. Project page is available at https://ku-cvlab.github.io/DAG/.
- Abstract(参考訳): 近年では拡散モデルの成功により生成モデルが大きく進歩している。
これらのモデルの成功は、しばしば、忠実性と多様性の間のトレードオフの効果的なメカニズムを提供する分類器や分類器フリーメソッドのようなガイダンス技術の使用に起因している。
しかし、これらの手法は生成した画像を幾何学的構成(例えば深度)に気付くように誘導することができないため、特定のレベルの深度認識を必要とする領域への拡散モデルの適用を妨げている。
そこで本研究では,拡散モデルのリッチな中間表現から推定された深さ情報を用いた拡散モデルの新しい指導手法を提案する。
そこで我々はまず,拡散モデルの内部表現を用いたラベル効率の高い深さ推定フレームワークを提案する。
サンプリングフェーズでは,推定深度マップを用いて生成画像のセルフコンディショニングを行うための2つの手法を用いて,第1の手法は擬似ラベルを用い,第2の手法では深度領域拡散を事前に行う。
実験および広範囲のアブレーション実験により, 拡散モデルを幾何的に可算な画像生成へ誘導する手法の有効性が示された。
プロジェクトページはhttps://ku-cvlab.github.io/dag/。
関連論文リスト
- Diffusion Models in Low-Level Vision: A Survey [82.77962165415153]
拡散モデルに基づくソリューションは、優れた品質と多様性のサンプルを作成する能力で広く称賛されている。
本稿では,3つの一般化拡散モデリングフレームワークを提案し,それらと他の深層生成モデルとの相関関係について検討する。
医療、リモートセンシング、ビデオシナリオなど、他のタスクに適用された拡張拡散モデルについて要約する。
論文 参考訳(メタデータ) (2024-06-17T01:49:27Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - Fast Diffusion EM: a diffusion model for blind inverse problems with
application to deconvolution [0.0]
現在の手法では、劣化が知られており、復元と多様性の点で印象的な結果をもたらすと仮定している。
本研究では、これらのモデルの効率を活用し、復元された画像と未知のパラメータを共同で推定する。
本手法は,拡散モデルから抽出したサンプルを用いて,問題の対数類似度を近似し,未知のモデルパラメータを推定する方法とを交互に比較する。
論文 参考訳(メタデータ) (2023-09-01T06:47:13Z) - Directional diffusion models for graph representation learning [9.457273750874357]
我々は方向拡散モデルと呼ばれる新しいモデルのクラスを提案する。
これらのモデルは前方拡散過程にデータ依存、異方性、指向性ノイズを含む。
我々は,2つのグラフ表現学習タスクに焦点をあてて,12の公開データセットに関する広範な実験を行った。
論文 参考訳(メタデータ) (2023-06-22T21:27:48Z) - Interpretable ODE-style Generative Diffusion Model via Force Field
Construction [0.0]
本稿では,数理的な観点からODE型生成拡散モデルを構築するのに適した様々な物理モデルを特定することを目的とする。
我々は,本手法で同定された理論モデルを用いて,新しい拡散モデル手法の開発を行うケーススタディを行う。
論文 参考訳(メタデータ) (2023-03-14T16:58:11Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z) - Unifying Diffusion Models' Latent Space, with Applications to
CycleDiffusion and Guidance [95.12230117950232]
関係領域で独立に訓練された2つの拡散モデルから共通潜時空間が現れることを示す。
テキスト・画像拡散モデルにCycleDiffusionを適用することで、大規模なテキスト・画像拡散モデルがゼロショット画像・画像拡散エディタとして使用できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:53:52Z) - Diffusion Models in Vision: A Survey [80.82832715884597]
拡散モデルは、前方拡散段階と逆拡散段階の2つの段階に基づく深層生成モデルである。
拡散モデルは、既知の計算負荷にもかかわらず、生成したサンプルの品質と多様性に対して広く評価されている。
論文 参考訳(メタデータ) (2022-09-10T22:00:30Z) - A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。
時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。
本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文 参考訳(メタデータ) (2022-09-06T16:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。