論文の概要: Cocktail: Mixing Multi-Modality Controls for Text-Conditional Image
Generation
- arxiv url: http://arxiv.org/abs/2306.00964v1
- Date: Thu, 1 Jun 2023 17:55:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 14:00:27.263924
- Title: Cocktail: Mixing Multi-Modality Controls for Text-Conditional Image
Generation
- Title(参考訳): Cocktail: テキストコンテンツ画像生成のための多重モード制御
- Authors: Minghui Hu, Jianbin Zheng, Daqing Liu, Chuanxia Zheng, Chaoyue Wang,
Dacheng Tao, Tat-Jen Cham
- Abstract要約: テキスト条件拡散モデルは多種多様な内容の高忠実度画像を生成することができる。
しかし、言語表現はしばしば、想定された目的像の曖昧な記述を示す。
様々なモダリティを1つの埋め込みに混ぜるパイプラインであるCocktailを提案する。
- 参考スコア(独自算出の注目度): 79.8881514424969
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-conditional diffusion models are able to generate high-fidelity images
with diverse contents. However, linguistic representations frequently exhibit
ambiguous descriptions of the envisioned objective imagery, requiring the
incorporation of additional control signals to bolster the efficacy of
text-guided diffusion models. In this work, we propose Cocktail, a pipeline to
mix various modalities into one embedding, amalgamated with a generalized
ControlNet (gControlNet), a controllable normalisation (ControlNorm), and a
spatial guidance sampling method, to actualize multi-modal and
spatially-refined control for text-conditional diffusion models. Specifically,
we introduce a hyper-network gControlNet, dedicated to the alignment and
infusion of the control signals from disparate modalities into the pre-trained
diffusion model. gControlNet is capable of accepting flexible modality signals,
encompassing the simultaneous reception of any combination of modality signals,
or the supplementary fusion of multiple modality signals. The control signals
are then fused and injected into the backbone model according to our proposed
ControlNorm. Furthermore, our advanced spatial guidance sampling methodology
proficiently incorporates the control signal into the designated region,
thereby circumventing the manifestation of undesired objects within the
generated image. We demonstrate the results of our method in controlling
various modalities, proving high-quality synthesis and fidelity to multiple
external signals.
- Abstract(参考訳): テキスト条件拡散モデルは多種多様な内容の高忠実度画像を生成することができる。
しかし、言語表現はしばしば想定された客観的なイメージの曖昧な記述を示し、テキスト誘導拡散モデルの有効性を高めるために追加の制御信号の導入を必要とする。
本研究では,様々なモードを1つの埋め込みに混合するパイプラインであるCocktailと,一般化されたControlNet(gControlNet),制御可能な正規化(ControlNorm),および空間誘導サンプリング手法を提案する。
具体的には、異なるモードからの制御信号のアライメントと注入を事前学習した拡散モデルに限定したハイパーネットワークgControlNetを提案する。
gcontrolnetは柔軟なモダリティ信号を受け付けることができ、モダリティ信号の任意の組み合わせの同時受信または複数のモダリティ信号の補足的な融合を含む。
提案したコントロールノームによると、制御信号を融合し、バックボーンモデルに注入する。
さらに, 提案手法では, 制御信号を指定領域に適切に組み込んで, 生成画像中の望ましくない物体の出現を回避している。
本手法は,様々なモダリティを制御し,高品質な合成と複数の外部信号に対する忠実性を示す。
関連論文リスト
- AnyControl: Create Your Artwork with Versatile Control on Text-to-Image Generation [24.07613591217345]
言語制御は効果的なコンテンツ生成を可能にするが、画像生成のきめ細かい制御に苦慮する。
AnyControlは、生成プロセスのガイドとして、統一されたマルチモーダル埋め込みを抽出する、新しいマルチControlフレームワークを開発している。
このアプローチは、ユーザ入力の全体的理解を可能にし、汎用的な制御信号の下で高品質で忠実な結果を生成する。
論文 参考訳(メタデータ) (2024-06-27T07:40:59Z) - ControlVAR: Exploring Controllable Visual Autoregressive Modeling [48.66209303617063]
拡散モデル(DM)の出現により、条件付き視覚発生は顕著に進展した。
高価な計算コスト、高い推論遅延、大規模言語モデル(LLM)との統合の難しさといった課題は、DMに代わる方法を模索する必要がある。
本稿では,フレキシブルかつ効率的な条件生成のための視覚自己回帰モデリングにおける画素レベル制御を探求する新しいフレームワークであるControlmoreを紹介する。
論文 参考訳(メタデータ) (2024-06-14T06:35:33Z) - ControlNet-XS: Rethinking the Control of Text-to-Image Diffusion Models as Feedback-Control Systems [19.02295657801464]
本研究では,既存の制御ネットワーク(ControlNet)を用いて,制御ネットワークと生成プロセス間の通信を高周波かつ大帯域で変更する。
我々は,深度,キャニーエッジ,セマンティックセグメンテーションなどの画素レベルのガイダンスに対する最先端のアプローチよりも優れており,人間のポーズのゆるいキーポイントガイダンスと同等である。
すべてのコードと事前訓練されたモデルは公開されます。
論文 参考訳(メタデータ) (2023-12-11T17:58:06Z) - Fine-grained Controllable Video Generation via Object Appearance and
Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。
FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文 参考訳(メタデータ) (2023-12-05T17:47:33Z) - Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models [82.19740045010435]
ローカルコントロールとグローバルコントロールの同時利用を可能にする統合フレームワークであるUni-ControlNetを紹介した。
既存の方法とは異なり、Uni-ControlNetは、凍結した事前訓練されたテキスト-画像拡散モデル上に2つのアダプタを微調整するだけでよい。
Uni-ControlNetは、制御性、生成品質、構成性の観点から、既存のメソッドよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:58Z) - UniControl: A Unified Diffusion Model for Controllable Visual Generation
In the Wild [166.25327094261038]
制御可能なコンディション・トゥ・イメージ(C2I)タスクのための新しい生成基盤モデルUniControlを紹介する。
UniControlは、任意の言語プロンプトを許容しながら、特定のフレームワーク内で幅広いC2Iタスクを統合する。
9つのユニークなC2Iタスクで訓練されたUniControlは、印象的なゼロショット生成能力を誇示している。
論文 参考訳(メタデータ) (2023-05-18T17:41:34Z) - Adding Conditional Control to Text-to-Image Diffusion Models [37.98427255384245]
大規模で事前訓練されたテキスト-画像拡散モデルに空間条件制御を追加するニューラルネットワークアーキテクチャであるControlNetを提案する。
ControlNetはプロダクション対応の大規模な拡散モデルをロックし、数十億のイメージで事前訓練されたディープで堅牢なエンコーディング層を強力なバックボーンとして再利用して、さまざまな条件付きコントロールを学ぶ。
論文 参考訳(メタデータ) (2023-02-10T23:12:37Z) - Controllable Text Generation via Probability Density Estimation in the
Latent Space [16.962510129437558]
本稿では,潜在空間における確率密度推定を用いた新しい制御フレームワークを提案する。
本手法では,非可逆変換関数である正規化フローを用いて,潜在空間の複素分布を先行空間の単純ガウス分布にマッピングする。
単一属性制御と多属性制御の実験により,本手法は属性関連性やテキスト品質の強いベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-12-16T07:11:18Z) - Latent Prompt Tuning for Text Summarization [95.85520030785139]
本稿では,制御モードと制御不能モードの両方に適用可能な単一モデルであるLotus (Latent Prompt Tuning for Summarization)を提案する。
トレーニング中、ロータスは対照的な学習目標を用いて、ゴールドコントロール信号を持つプロンプトから潜在的なプロンプト表現を学習する。
実験では、4つの異なる要約データセットにわたる強い(制御不能な)要約モデルにおいて、制御不能なモードのロータスが一貫して改善されることを示した。
論文 参考訳(メタデータ) (2022-11-03T14:18:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。