論文の概要: Diffusion in Diffusion: Cyclic One-Way Diffusion for
Text-Vision-Conditioned Generation
- arxiv url: http://arxiv.org/abs/2306.08247v5
- Date: Tue, 16 Jan 2024 14:53:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 21:28:11.533489
- Title: Diffusion in Diffusion: Cyclic One-Way Diffusion for
Text-Vision-Conditioned Generation
- Title(参考訳): 拡散の拡散:周期的一方向拡散によるテキストビジョン条件付き生成
- Authors: Ruoyu Wang, Yongqi Yang, Zhihao Qian, Ye Zhu, Yu Wu
- Abstract要約: 本研究では,拡散(機械学習)特性の拡散(物理学)について検討する。
拡散現象の方向を制御するために,循環一流拡散法(COW)を提案する。
提案するCOWは,厳密な視覚条件に基づいて,より柔軟なカスタマイズを実現することができることを示す。
- 参考スコア(独自算出の注目度): 12.666899346355622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Originating from the diffusion phenomenon in physics that describes particle
movement, the diffusion generative models inherit the characteristics of
stochastic random walk in the data space along the denoising trajectory.
However, the intrinsic mutual interference among image regions contradicts the
need for practical downstream application scenarios where the preservation of
low-level pixel information from given conditioning is desired (e.g.,
customization tasks like personalized generation and inpainting based on a
user-provided single image). In this work, we investigate the diffusion
(physics) in diffusion (machine learning) properties and propose our Cyclic
One-Way Diffusion (COW) method to control the direction of diffusion phenomenon
given a pre-trained frozen diffusion model for versatile customization
application scenarios, where the low-level pixel information from the
conditioning needs to be preserved. Notably, unlike most current methods that
incorporate additional conditions by fine-tuning the base text-to-image
diffusion model or learning auxiliary networks, our method provides a novel
perspective to understand the task needs and is applicable to a wider range of
customization scenarios in a learning-free manner. Extensive experiment results
show that our proposed COW can achieve more flexible customization based on
strict visual conditions in different application settings.
- Abstract(参考訳): 粒子移動を記述する物理学における拡散現象から派生した拡散生成モデルは、消音軌道に沿ってデータ空間内の確率的ランダムウォークの特性を継承する。
しかし、画像領域間の内在的な相互干渉は、所定の条件付けから低レベル画素情報の保存が望まれる実用的な下流アプリケーションシナリオ(例えば、ユーザ提供の単一画像に基づくパーソナライズ生成や塗り込みといったカスタマイズタスク)の必要性と矛盾する。
本研究では, 拡散(機械学習)特性における拡散(物理)について検討し, コンディショニングの低レベル画素情報を保存する必要がある多目的カスタマイズ応用シナリオにおいて, 事前学習された凍結拡散モデルが与える拡散現象の方向を制御するための循環的一方向拡散(cow)法を提案する。
特に,基礎となるテキスト・画像拡散モデルや学習補助ネットワークを微調整して追加条件を組み込んだ現在の手法とは異なり,本手法はタスクニーズを理解するための新しい視点を提供し,学習自由な方法で幅広いカスタマイズシナリオに適用できる。
広範囲にわたる実験結果から,提案する牛は,異なるアプリケーション環境での厳密な視覚条件に基づいて,より柔軟なカスタマイズが可能となった。
関連論文リスト
- Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Crossway Diffusion: Improving Diffusion-based Visuomotor Policy via
Self-supervised Learning [42.009856923352864]
拡散モデルは、シーケンス・モデリング方式で行動的クローニングに採用されている。
拡散に基づくビジュモータポリシー学習の簡易かつ効果的な手法であるクロスウェイ拡散を提案する。
シミュレーションおよび実世界のロボット作業におけるクロスウェイ拡散の有効性を実証した。
論文 参考訳(メタデータ) (2023-07-04T17:59:29Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - A Variational Perspective on Solving Inverse Problems with Diffusion
Models [101.831766524264]
逆タスクは、データ上の後続分布を推測するものとして定式化することができる。
しかし、拡散過程の非線形的かつ反復的な性質が後部を引き付けるため、拡散モデルではこれは困難である。
そこで我々は,真の後続分布を近似する設計手法を提案する。
論文 参考訳(メタデータ) (2023-05-07T23:00:47Z) - Towards Enhanced Controllability of Diffusion Models [22.84630454597448]
我々は,2つの潜伏符号に条件付き拡散モデル,空間的内容マスクと平らなスタイルの埋め込みを訓練する。
既存の手法と比較して制御性が向上し, 画像操作, 参照ベース画像翻訳, スタイル転送に拡散モデルが有効であることを示す。
論文 参考訳(メタデータ) (2023-02-28T07:43:00Z) - ShiftDDPMs: Exploring Conditional Diffusion Models by Shifting Diffusion
Trajectories [144.03939123870416]
本稿では,前処理に条件を導入することで,新しい条件拡散モデルを提案する。
いくつかのシフト規則に基づいて各条件に対して排他的拡散軌跡を割り当てるために、余剰潜在空間を用いる。
我々は textbfShiftDDPMs と呼ぶメソッドを定式化し、既存のメソッドの統一的な視点を提供する。
論文 参考訳(メタデータ) (2023-02-05T12:48:21Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z) - Unifying Diffusion Models' Latent Space, with Applications to
CycleDiffusion and Guidance [95.12230117950232]
関係領域で独立に訓練された2つの拡散モデルから共通潜時空間が現れることを示す。
テキスト・画像拡散モデルにCycleDiffusionを適用することで、大規模なテキスト・画像拡散モデルがゼロショット画像・画像拡散エディタとして使用できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:53:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。