論文の概要: Diffusion in Diffusion: Cyclic One-Way Diffusion for
Text-Vision-Conditioned Generation
- arxiv url: http://arxiv.org/abs/2306.08247v1
- Date: Wed, 14 Jun 2023 05:25:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 20:28:54.578859
- Title: Diffusion in Diffusion: Cyclic One-Way Diffusion for
Text-Vision-Conditioned Generation
- Title(参考訳): 拡散の拡散:周期的一方向拡散によるテキストビジョン条件付き生成
- Authors: Yongqi Yang (1), Ruoyu Wang (1), Zhihao Qian (1), Ye Zhu (2), Yu Wu
(1) ((1) Wuhan University, (2) Princeton University)
- Abstract要約: セマンティックレベルのテキスト入力だけでなく、画素レベルの視覚条件にもとづいて画像を生成する。
既存の文献は、まず与えられた視覚情報を言語に接続することで意味レベルの表現に変換し、それから元の認知過程に組み込む。
我々は,セマンティックテキストやピクセル・ビジュアル・コンディショニングに関して,カスタマイズされた画像を作成するためのトレーニングフリーフレームワークであるCyclic One-Way Diffusion (COW)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Text-to-Image (T2I) generation with diffusion models allows users to control
the semantic content in the synthesized images given text conditions. As a
further step toward a more customized image creation application, we introduce
a new multi-modality generation setting that synthesizes images based on not
only the semantic-level textual input but also on the pixel-level visual
conditions. Existing literature first converts the given visual information to
semantic-level representation by connecting it to languages, and then
incorporates it into the original denoising process. Seemingly intuitive, such
methodological design loses the pixel values during the semantic transition,
thus failing to fulfill the task scenario where the preservation of low-level
vision is desired (e.g., ID of a given face image). To this end, we propose
Cyclic One-Way Diffusion (COW), a training-free framework for creating
customized images with respect to semantic text and pixel-visual conditioning.
Notably, we observe that sub-regions of an image impose mutual interference,
just like physical diffusion, to achieve ultimate harmony along the denoising
trajectory. Thus we propose to repetitively utilize the given visual condition
in a cyclic way, by planting the visual condition as a high-concentration
``seed'' at the initialization step of the denoising process, and ``diffuse''
it into a harmonious picture by controlling a one-way information flow from the
visual condition. We repeat the destroy-and-construct process multiple times to
gradually but steadily impose the internal diffusion process within the image.
Experiments on the challenging one-shot face and text-conditioned image
synthesis task demonstrate our superiority in terms of speed, image quality,
and conditional fidelity compared to learning-based text-vision conditional
methods.
- Abstract(参考訳): 拡散モデルを用いたテキスト・ツー・イメージ(T2I)生成により、ユーザはテキスト条件が与えられた合成画像のセマンティックコンテンツを制御することができる。
よりカスタマイズされた画像生成アプリケーションに向けたさらなるステップとして、セマンティックレベルのテキスト入力だけでなく、ピクセルレベルの視覚条件にもとづく画像の合成を行う、新しいマルチモダリティ生成設定を導入する。
既存の文献は、まず与えられた視覚情報を言語と接続して意味論的表現に変換し、それから元の分節化プロセスに組み込む。
一見直感的に見えるように、このような方法論設計は意味遷移中にピクセル値を失うため、低レベルのビジョン(例えば、顔画像のid)の保存が望まれるタスクシナリオを満たせない。
そこで本研究では,セマンティックテキストやピクセル・ビジュアル・コンディショニングに関して,カスタマイズされた画像を作成するためのトレーニングフリーフレームワークであるCyclic One-Way Diffusion (COW)を提案する。
特に,画像のサブ領域は,物理的拡散と同様に相互干渉を伴い,消音軌道に沿った究極の調和を達成する。
そこで我々は,視覚条件を高濃度の「セド」としてデノナイズプロセスの初期段階に配置し,視覚条件からの一方向情報の流れを制御することで,その「拡散」を調和図形にすることで,与えられた視覚条件を周期的に繰り返し活用することを提案する。
画像内における内部拡散過程を段階的に実施するために, 破壊・構築過程を何回も繰り返す。
難解なワンショット顔とテキストコンディショニング画像合成タスクの実験は,学習に基づくテキスト・ビジョン条件付き手法と比較して,速度,画質,条件付き忠実性において優れることを示した。
関連論文リスト
- Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Crossway Diffusion: Improving Diffusion-based Visuomotor Policy via
Self-supervised Learning [42.009856923352864]
拡散モデルは、シーケンス・モデリング方式で行動的クローニングに採用されている。
拡散に基づくビジュモータポリシー学習の簡易かつ効果的な手法であるクロスウェイ拡散を提案する。
シミュレーションおよび実世界のロボット作業におけるクロスウェイ拡散の有効性を実証した。
論文 参考訳(メタデータ) (2023-07-04T17:59:29Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - A Variational Perspective on Solving Inverse Problems with Diffusion
Models [101.831766524264]
逆タスクは、データ上の後続分布を推測するものとして定式化することができる。
しかし、拡散過程の非線形的かつ反復的な性質が後部を引き付けるため、拡散モデルではこれは困難である。
そこで我々は,真の後続分布を近似する設計手法を提案する。
論文 参考訳(メタデータ) (2023-05-07T23:00:47Z) - Towards Enhanced Controllability of Diffusion Models [22.84630454597448]
我々は,2つの潜伏符号に条件付き拡散モデル,空間的内容マスクと平らなスタイルの埋め込みを訓練する。
既存の手法と比較して制御性が向上し, 画像操作, 参照ベース画像翻訳, スタイル転送に拡散モデルが有効であることを示す。
論文 参考訳(メタデータ) (2023-02-28T07:43:00Z) - ShiftDDPMs: Exploring Conditional Diffusion Models by Shifting Diffusion
Trajectories [144.03939123870416]
本稿では,前処理に条件を導入することで,新しい条件拡散モデルを提案する。
いくつかのシフト規則に基づいて各条件に対して排他的拡散軌跡を割り当てるために、余剰潜在空間を用いる。
我々は textbfShiftDDPMs と呼ぶメソッドを定式化し、既存のメソッドの統一的な視点を提供する。
論文 参考訳(メタデータ) (2023-02-05T12:48:21Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z) - Unifying Diffusion Models' Latent Space, with Applications to
CycleDiffusion and Guidance [95.12230117950232]
関係領域で独立に訓練された2つの拡散モデルから共通潜時空間が現れることを示す。
テキスト・画像拡散モデルにCycleDiffusionを適用することで、大規模なテキスト・画像拡散モデルがゼロショット画像・画像拡散エディタとして使用できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:53:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。