論文の概要: Diffusion in Diffusion: Cyclic One-Way Diffusion for
Text-Vision-Conditioned Generation
- arxiv url: http://arxiv.org/abs/2306.08247v3
- Date: Fri, 13 Oct 2023 07:14:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 17:35:44.733598
- Title: Diffusion in Diffusion: Cyclic One-Way Diffusion for
Text-Vision-Conditioned Generation
- Title(参考訳): 拡散の拡散:周期的一方向拡散によるテキストビジョン条件付き生成
- Authors: Ruoyu Wang, Yongqi Yang, Zhihao Qian, Ye Zhu, Yu Wu
- Abstract要約: 本研究では,拡散(機械学習)特性の拡散(物理学)について検討する。
拡散現象の方向を制御するために,循環一流拡散法(COW)を提案する。
提案するCOWは,厳密な視覚条件に基づいて,より柔軟なカスタマイズを実現することができることを示す。
- 参考スコア(独自算出の注目度): 12.666899346355622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Originating from the diffusion phenomenon in physics that describes particle
movement, the diffusion generative models inherit the characteristics of
stochastic random walk in the data space along the denoising trajectory.
However, the intrinsic mutual interference among image regions contradicts the
need for practical downstream application scenarios where the preservation of
low-level pixel information from given conditioning is desired (e.g.,
customization tasks like personalized generation and inpainting based on a
user-provided single image). In this work, we investigate the diffusion
(physics) in diffusion (machine learning) properties and propose our Cyclic
One-Way Diffusion (COW) method to control the direction of diffusion phenomenon
given a pre-trained frozen diffusion model for versatile customization
application scenarios, where the low-level pixel information from the
conditioning needs to be preserved. Notably, unlike most current methods that
incorporate additional conditions by fine-tuning the base text-to-image
diffusion model or learning auxiliary networks, our method provides a novel
perspective to understand the task needs and is applicable to a wider range of
customization scenarios in a learning-free manner. Extensive experiment results
show that our proposed COW can achieve more flexible customization based on
strict visual conditions in different application settings.
- Abstract(参考訳): 粒子移動を記述する物理学における拡散現象から派生した拡散生成モデルは、消音軌道に沿ってデータ空間内の確率的ランダムウォークの特性を継承する。
しかし、画像領域間の内在的な相互干渉は、所定の条件付けから低レベル画素情報の保存が望まれる実用的な下流アプリケーションシナリオ(例えば、ユーザ提供の単一画像に基づくパーソナライズ生成や塗り込みといったカスタマイズタスク)の必要性と矛盾する。
本研究では, 拡散(機械学習)特性における拡散(物理)について検討し, コンディショニングの低レベル画素情報を保存する必要がある多目的カスタマイズ応用シナリオにおいて, 事前学習された凍結拡散モデルが与える拡散現象の方向を制御するための循環的一方向拡散(cow)法を提案する。
特に,基礎となるテキスト・画像拡散モデルや学習補助ネットワークを微調整して追加条件を組み込んだ現在の手法とは異なり,本手法はタスクニーズを理解するための新しい視点を提供し,学習自由な方法で幅広いカスタマイズシナリオに適用できる。
広範囲にわたる実験結果から,提案する牛は,異なるアプリケーション環境での厳密な視覚条件に基づいて,より柔軟なカスタマイズが可能となった。
関連論文リスト
- Merging and Splitting Diffusion Paths for Semantically Coherent Panoramas [33.334956022229846]
本稿では,Merge-Attend-Diffuse演算子を提案する。
具体的には、拡散経路をマージし、自己および横断的意図をプログラムし、集約された潜在空間で操作する。
提案手法は,生成した画像の入力プロンプトと視覚的品質との整合性を維持しつつ,セマンティック・コヒーレンスを増大させる。
論文 参考訳(メタデータ) (2024-08-28T09:22:32Z) - Immiscible Diffusion: Accelerating Diffusion Training with Noise Assignment [56.609042046176555]
準最適雑音データマッピングは拡散モデルの遅い訓練につながる。
物理学における不和性現象からインスピレーションを得て,不和性拡散を提案する。
我々のアプローチは極めて単純で、各画像の拡散可能な領域を制限するために1行のコードしか必要としない。
論文 参考訳(メタデータ) (2024-06-18T06:20:42Z) - Improving GFlowNets for Text-to-Image Diffusion Alignment [48.42367859859971]
報酬を直接最大化するのではなく,比較的高い確率で高解像度画像を生成する手法を探索する。
提案手法は,大規模テキスト・画像拡散モデルと報酬情報とを効果的に一致させることができる。
論文 参考訳(メタデータ) (2024-06-02T06:36:46Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Deceptive-NeRF/3DGS: Diffusion-Generated Pseudo-Observations for High-Quality Sparse-View Reconstruction [60.52716381465063]
我々は,限られた入力画像のみを用いて,スパースビュー再構成を改善するために,Deceptive-NeRF/3DGSを導入した。
具体的には,少数視点再構成によるノイズ画像から高品質な擬似観測へ変換する,偽拡散モデルを提案する。
本システムでは,拡散生成擬似観測をトレーニング画像集合に徐々に組み込んで,スパース入力観測を5倍から10倍に高めている。
論文 参考訳(メタデータ) (2023-05-24T14:00:32Z) - Enhanced Controllability of Diffusion Models via Feature Disentanglement and Realism-Enhanced Sampling Methods [27.014858633903867]
拡散モデル(FDiff)の特徴分散のためのトレーニングフレームワークを提案する。
本稿では,拡散モデルの現実性を高め,制御性を高める2つのサンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T07:43:00Z) - ShiftDDPMs: Exploring Conditional Diffusion Models by Shifting Diffusion
Trajectories [144.03939123870416]
本稿では,前処理に条件を導入することで,新しい条件拡散モデルを提案する。
いくつかのシフト規則に基づいて各条件に対して排他的拡散軌跡を割り当てるために、余剰潜在空間を用いる。
我々は textbfShiftDDPMs と呼ぶメソッドを定式化し、既存のメソッドの統一的な視点を提供する。
論文 参考訳(メタデータ) (2023-02-05T12:48:21Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。