論文の概要: Late-Constraint Diffusion Guidance for Controllable Image Synthesis
- arxiv url: http://arxiv.org/abs/2305.11520v4
- Date: Wed, 14 Jun 2023 12:29:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-17 00:49:24.199845
- Title: Late-Constraint Diffusion Guidance for Controllable Image Synthesis
- Title(参考訳): 制御可能な画像合成のための遅延制約拡散誘導
- Authors: Chang Liu, Dong Liu
- Abstract要約: 拡散モデルでは、テキスト条件の有無にかかわらず、少数の単語が与えられたり、あるいは全くない画像の合成能力を示す。
我々は拡散ネットワークをそのままにしておくが、その出力は要求条件に適合するように制約する。
提案手法は,既存の早期制約法よりも優れ,未確認条件の一般化に優れる。
- 参考スコア(独自算出の注目度): 15.16204528664876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models, either with or without text condition, have demonstrated
impressive capability in synthesizing photorealistic images given a few or even
no words. These models may not fully satisfy user need, as normal users or
artists intend to control the synthesized images with specific guidance, like
overall layout, color, structure, object shape, and so on. To adapt diffusion
models for controllable image synthesis, several methods have been proposed to
incorporate the required conditions as regularization upon the intermediate
features of the diffusion denoising network. These methods, known as
early-constraint ones in this paper, have difficulties in handling multiple
conditions with a single solution. They intend to train separate models for
each specific condition, which require much training cost and result in
non-generalizable solutions. To address these difficulties, we propose a new
approach namely late-constraint: we leave the diffusion networks unchanged, but
constrain its output to be aligned with the required conditions. Specifically,
we train a lightweight condition adapter to establish the correlation between
external conditions and internal representations of diffusion models. During
the iterative denoising process, the conditional guidance is sent into
corresponding condition adapter to manipulate the sampling process with the
established correlation. We further equip the introduced late-constraint
strategy with a timestep resampling method and an early stopping technique,
which boost the quality of synthesized image meanwhile complying with the
guidance. Our method outperforms the existing early-constraint methods and
generalizes better to unseen condition. Our code would be available.
- Abstract(参考訳): 拡散モデルは、テキスト条件の有無にかかわらず、数語または全くの単語を与えられたフォトリアリスティック画像の合成能力を示す。
通常のユーザーやアーティストは、全体的なレイアウト、色、構造、オブジェクトの形状など、特定のガイダンスで合成画像を制御するつもりなので、これらのモデルはユーザーのニーズを十分に満たさないかもしれない。
制御可能な画像合成に拡散モデルを適用するために,拡散復調ネットワークの中間特性を正則化するためのいくつかの手法が提案されている。
本稿では, 早期制約法として知られ, 単一解法で複数の条件を扱うのに困難がある。
彼らは、多くのトレーニングコストと一般化不可能なソリューションを必要とする、特定の条件ごとに別々のモデルをトレーニングすることを意図している。
これらの問題に対処するために,我々は拡散ネットワークをそのまま残しながら,その出力が要求条件に合致するように制約するという,遅延制約という新しいアプローチを提案する。
具体的には,外部条件と拡散モデルの内部表現との相関性を確立するために,軽量条件アダプタを訓練する。
反復分別処理の間、条件付きガイダンスを対応する条件アダプタに送信してサンプリングプロセスを確立された相関で操作する。
さらに,提案手法に準拠した合成画像の品質向上を図るため,時間ステップリサンプリング法と早期停止法を用いて,導入した遅延制約戦略を導入する。
提案手法は,既存の早期制約法よりも優れ,未確認条件の一般化に優れる。
私たちのコードは利用できます。
関連論文リスト
- CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster
Image Generation [49.3016007471979]
大規模な生成拡散モデルは、テキスト・ツー・イメージ生成に革命をもたらし、条件付き生成タスクに大きな可能性を秘めている。
しかし、彼らの普及は高い計算コストによって妨げられ、リアルタイムの応用が制限される。
本稿では,事前学習した潜伏拡散モデルに付加的な画像条件入力を適応させるCoDiという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T17:59:18Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - BoxDiff: Text-to-Image Synthesis with Training-Free Box-Constrained
Diffusion [44.381568605808845]
本稿では,ボックスやスクリブルなどのユーザ提供条件の最も単純な形式に焦点を当てる。
本研究では,空間条件に順応した合成画像のオブジェクトとコンテキストを制御する訓練自由な手法を提案する。
具体的には、3つの空間的制約、すなわち、インナーボックス、アウターボックス、コーナー制約を、拡散モデルの妄想的なステップにシームレスに統合する。
論文 参考訳(メタデータ) (2023-07-20T12:25:06Z) - Conditional Generation from Unconditional Diffusion Models using
Denoiser Representations [94.04631421741986]
本稿では,学習したデノイザネットワークの内部表現を用いて,事前学習した非条件拡散モデルを新しい条件に適用することを提案する。
提案手法により生成した合成画像を用いたTiny ImageNetトレーニングセットの強化により,ResNetベースラインの分類精度が最大8%向上することを示す。
論文 参考訳(メタデータ) (2023-06-02T20:09:57Z) - Exploiting Diffusion Prior for Real-World Image Super-Resolution [81.0962494325732]
本稿では,事前学習したテキスト・画像拡散モデルにカプセル化された事前知識を視覚的超解像に活用するための新しいアプローチを提案する。
時間認識エンコーダを用いることで、事前学習した合成モデルを変更することなく、有望な復元結果が得られる。
論文 参考訳(メタデータ) (2023-05-11T17:55:25Z) - ShiftDDPMs: Exploring Conditional Diffusion Models by Shifting Diffusion
Trajectories [144.03939123870416]
本稿では,前処理に条件を導入することで,新しい条件拡散モデルを提案する。
いくつかのシフト規則に基づいて各条件に対して排他的拡散軌跡を割り当てるために、余剰潜在空間を用いる。
我々は textbfShiftDDPMs と呼ぶメソッドを定式化し、既存のメソッドの統一的な視点を提供する。
論文 参考訳(メタデータ) (2023-02-05T12:48:21Z) - Image Generation with Multimodal Priors using Denoising Diffusion
Probabilistic Models [54.1843419649895]
このタスクを達成するために生成モデルを使用する際の大きな課題は、すべてのモダリティと対応する出力を含むペアデータの欠如である。
本稿では,拡散確率的合成モデルに基づく多モデル先行画像生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-10T12:23:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。