論文の概要: Diffusion in Diffusion: Cyclic One-Way Diffusion for
Text-Vision-Conditioned Generation
- arxiv url: http://arxiv.org/abs/2306.08247v2
- Date: Sat, 17 Jun 2023 13:26:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 00:54:26.641153
- Title: Diffusion in Diffusion: Cyclic One-Way Diffusion for
Text-Vision-Conditioned Generation
- Title(参考訳): 拡散の拡散:周期的一方向拡散によるテキストビジョン条件付き生成
- Authors: Yongqi Yang, Ruoyu Wang, Zhihao Qian, Ye Zhu, Yu Wu
- Abstract要約: セマンティックレベルのテキスト入力だけでなく、ピクセルレベルの視覚条件にもとづいて画像を生成する。
本研究では,カスタマイズした画像を作成するためのトレーニングフリーフレームワークであるCyclic One-Way Diffusion (COW)を提案する。
挑戦的なワンショット顔とテキストコンディショニング画像合成タスクの実験は、速度、画質、条件の忠実さにおいて、我々の優位性を実証している。
- 参考スコア(独自算出の注目度): 9.280840837418516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-Image (T2I) generation with diffusion models allows users to control
the semantic content in the synthesized images given text conditions. As a
further step toward a more customized image creation application, we introduce
a new multi-modality generation setting that synthesizes images based on not
only the semantic-level textual input but also on the pixel-level visual
conditions. Existing literature first converts the given visual information to
semantic-level representation by connecting it to languages, and then
incorporates it into the original denoising process. Seemingly intuitive, such
methodological design loses the pixel values during the semantic transition,
thus failing to fulfill the task scenario where the preservation of low-level
vision is desired (e.g., ID of a given face image). To this end, we propose
Cyclic One-Way Diffusion (COW), a training-free framework for creating
customized images with respect to semantic text and pixel-visual conditioning.
Notably, we observe that sub-regions of an image impose mutual interference,
just like physical diffusion, to achieve ultimate harmony along the denoising
trajectory. Thus we propose to repetitively utilize the given visual condition
in a cyclic way, by planting the visual condition as a high-concentration
"seed" at the initialization step of the denoising process, and "diffuse" it
into a harmonious picture by controlling a one-way information flow from the
visual condition. We repeat the destroy-and-construct process multiple times to
gradually but steadily impose the internal diffusion process within the image.
Experiments on the challenging one-shot face and text-conditioned image
synthesis task demonstrate our superiority in terms of speed, image quality,
and conditional fidelity compared to learning-based text-vision conditional
methods. Project page is available at: https://bigaandsmallq.github.io/COW/
- Abstract(参考訳): 拡散モデルを用いたテキスト・ツー・イメージ(T2I)生成により、ユーザはテキスト条件が与えられた合成画像のセマンティックコンテンツを制御することができる。
よりカスタマイズされた画像生成アプリケーションに向けたさらなるステップとして、セマンティックレベルのテキスト入力だけでなく、ピクセルレベルの視覚条件にもとづく画像の合成を行う、新しいマルチモダリティ生成設定を導入する。
既存の文献は、まず与えられた視覚情報を言語と接続して意味論的表現に変換し、それから元の分節化プロセスに組み込む。
一見直感的に見えるように、このような方法論設計は意味遷移中にピクセル値を失うため、低レベルのビジョン(例えば、顔画像のid)の保存が望まれるタスクシナリオを満たせない。
そこで本研究では,セマンティックテキストやピクセル・ビジュアル・コンディショニングに関して,カスタマイズされた画像を作成するためのトレーニングフリーフレームワークであるCyclic One-Way Diffusion (COW)を提案する。
特に,画像のサブ領域は,物理的拡散と同様に相互干渉を伴い,消音軌道に沿った究極の調和を達成する。
そこで本稿では,視覚条件を高濃度の「シード」としてデノベーションプロセスの初期化段階に植え込み,一方の情報フローを視覚条件から制御して調和画像に「拡散」することにより,所定の視覚条件を反復的に繰り返し利用することを提案する。
画像内における内部拡散過程を段階的に実施するために, 破壊・構築過程を何回も繰り返す。
難解なワンショット顔とテキストコンディショニング画像合成タスクの実験は,学習に基づくテキスト・ビジョン条件付き手法と比較して,速度,画質,条件付き忠実性において優れることを示した。
プロジェクトページはhttps://bigaandsmallq.github.io/cow/。
関連論文リスト
- Merging and Splitting Diffusion Paths for Semantically Coherent Panoramas [33.334956022229846]
本稿では,Merge-Attend-Diffuse演算子を提案する。
具体的には、拡散経路をマージし、自己および横断的意図をプログラムし、集約された潜在空間で操作する。
提案手法は,生成した画像の入力プロンプトと視覚的品質との整合性を維持しつつ,セマンティック・コヒーレンスを増大させる。
論文 参考訳(メタデータ) (2024-08-28T09:22:32Z) - Immiscible Diffusion: Accelerating Diffusion Training with Noise Assignment [56.609042046176555]
準最適雑音データマッピングは拡散モデルの遅い訓練につながる。
物理学における不和性現象からインスピレーションを得て,不和性拡散を提案する。
我々のアプローチは極めて単純で、各画像の拡散可能な領域を制限するために1行のコードしか必要としない。
論文 参考訳(メタデータ) (2024-06-18T06:20:42Z) - Improving GFlowNets for Text-to-Image Diffusion Alignment [48.42367859859971]
報酬を直接最大化するのではなく,比較的高い確率で高解像度画像を生成する手法を探索する。
提案手法は,大規模テキスト・画像拡散モデルと報酬情報とを効果的に一致させることができる。
論文 参考訳(メタデータ) (2024-06-02T06:36:46Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Deceptive-NeRF/3DGS: Diffusion-Generated Pseudo-Observations for High-Quality Sparse-View Reconstruction [60.52716381465063]
我々は,限られた入力画像のみを用いて,スパースビュー再構成を改善するために,Deceptive-NeRF/3DGSを導入した。
具体的には,少数視点再構成によるノイズ画像から高品質な擬似観測へ変換する,偽拡散モデルを提案する。
本システムでは,拡散生成擬似観測をトレーニング画像集合に徐々に組み込んで,スパース入力観測を5倍から10倍に高めている。
論文 参考訳(メタデータ) (2023-05-24T14:00:32Z) - Enhanced Controllability of Diffusion Models via Feature Disentanglement and Realism-Enhanced Sampling Methods [27.014858633903867]
拡散モデル(FDiff)の特徴分散のためのトレーニングフレームワークを提案する。
本稿では,拡散モデルの現実性を高め,制御性を高める2つのサンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T07:43:00Z) - ShiftDDPMs: Exploring Conditional Diffusion Models by Shifting Diffusion
Trajectories [144.03939123870416]
本稿では,前処理に条件を導入することで,新しい条件拡散モデルを提案する。
いくつかのシフト規則に基づいて各条件に対して排他的拡散軌跡を割り当てるために、余剰潜在空間を用いる。
我々は textbfShiftDDPMs と呼ぶメソッドを定式化し、既存のメソッドの統一的な視点を提供する。
論文 参考訳(メタデータ) (2023-02-05T12:48:21Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。