論文の概要: Layout-to-Image Generation with Localized Descriptions using ControlNet
with Cross-Attention Control
- arxiv url: http://arxiv.org/abs/2402.13404v1
- Date: Tue, 20 Feb 2024 22:15:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 17:59:38.837618
- Title: Layout-to-Image Generation with Localized Descriptions using ControlNet
with Cross-Attention Control
- Title(参考訳): クロスアテンション制御による制御ネットを用いた局所記述によるレイアウト・画像生成
- Authors: Denis Lukovnikov, Asja Fischer
- Abstract要約: レイアウト・ツー・イメージタスクにおけるControlNetの限界を示し、ローカライズされた記述を使えるようにする。
制御性を改善しつつ画像品質を維持するために,新しいクロスアテンション操作法を開発した。
- 参考スコア(独自算出の注目度): 20.533597112330018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While text-to-image diffusion models can generate highquality images from
textual descriptions, they generally lack fine-grained control over the visual
composition of the generated images. Some recent works tackle this problem by
training the model to condition the generation process on additional input
describing the desired image layout. Arguably the most popular among such
methods, ControlNet, enables a high degree of control over the generated image
using various types of conditioning inputs (e.g. segmentation maps). However,
it still lacks the ability to take into account localized textual descriptions
that indicate which image region is described by which phrase in the prompt. In
this work, we show the limitations of ControlNet for the layout-to-image task
and enable it to use localized descriptions using a training-free approach that
modifies the crossattention scores during generation. We adapt and investigate
several existing cross-attention control methods in the context of ControlNet
and identify shortcomings that cause failure (concept bleeding) or image
degradation under specific conditions. To address these shortcomings, we
develop a novel cross-attention manipulation method in order to maintain image
quality while improving control. Qualitative and quantitative experimental
studies focusing on challenging cases are presented, demonstrating the
effectiveness of the investigated general approach, and showing the
improvements obtained by the proposed cross-attention control method.
- Abstract(参考訳): テキストから画像への拡散モデルは、テキスト記述から高品質な画像を生成することができるが、一般的には生成された画像の視覚的構成に対するきめ細かい制御を欠いている。
最近の研究では、望ましい画像レイアウトを記述する追加入力に対して生成プロセスを条件付けるようにモデルをトレーニングすることでこの問題に対処している。
そのような方法の中で最も人気のあるのはcontrolnetで、様々な種類の条件付け入力(例えばセグメンテーションマップ)を使って生成した画像に対して高度な制御を可能にする。
しかし、プロンプトのどのフレーズでどの画像領域が記述されているかを示す局所的なテキスト記述を考慮する能力は依然として欠如している。
本稿では,レイアウト・ツー・イメージタスクにおけるコントロールネットの限界を示し,生成時のクロスアテンションスコアを変化させるトレーニングフリーなアプローチを用いて,局所化記述の利用を可能にする。
制御ネットのコンテキストにおいて,いくつかの既存のクロスアテンション制御手法を適応・検討し,特定の条件下での故障(概念的出血)や画像劣化の原因となる欠点を同定する。
これらの欠点に対処するために,制御性を改善しつつ画質を維持するために,新たなクロスタッチ操作法を開発した。
課題に焦点をあてた質的,定量的な実験研究を行い,検討した一般アプローチの有効性を示し,提案手法による改善を示す。
関連論文リスト
- AnyControl: Create Your Artwork with Versatile Control on Text-to-Image Generation [24.07613591217345]
言語制御は効果的なコンテンツ生成を可能にするが、画像生成のきめ細かい制御に苦慮する。
AnyControlは、生成プロセスのガイドとして、統一されたマルチモーダル埋め込みを抽出する、新しいマルチControlフレームワークを開発している。
このアプローチは、ユーザ入力の全体的理解を可能にし、汎用的な制御信号の下で高品質で忠実な結果を生成する。
論文 参考訳(メタデータ) (2024-06-27T07:40:59Z) - Pre-trained Text-to-Image Diffusion Models Are Versatile Representation Learners for Control [73.6361029556484]
身体的なAIエージェントは、視覚的および言語入力を介して、物理的な世界を詳細に理解する必要がある。
テキストプロンプトから画像を生成するために明示的に最適化された事前学習されたテキスト画像拡散モデルについて検討する。
安定度制御表現により,OVMM上での最先端性能を示す学習ポリシーが実現可能であることを示す。
論文 参考訳(メタデータ) (2024-05-09T15:39:54Z) - ControlNet++: Improving Conditional Controls with Efficient Consistency Feedback [20.910939141948123]
ControlNet++は、生成した画像と条件付き制御の間のピクセルレベルのサイクル一貫性を明示的に最適化することで、制御可能な生成を改善する新しいアプローチである。
ControlNetの11.1%のmIoU、13.4%のSSIM、7.6%のRMSE、それぞれセグメンテーションマスク、ラインアートエッジ、深さ条件の改善を実現している。
論文 参考訳(メタデータ) (2024-04-11T17:59:09Z) - ECNet: Effective Controllable Text-to-Image Diffusion Models [31.21525123716149]
本稿では,条件付きテキスト・ツー・イメージモデルに対する2つの革新的なソリューションを提案する。
まず,テキスト入力を正確なアノテーション情報で符号化することで,条件の詳細性を高める空間ガイダンス(SGI)を提案する。
第二に、条件付き監督の制限を克服するため、拡散整合損失を導入する。
これにより、各ステップにおける潜時符号と入力信号との一貫性が促進され、出力の堅牢性と精度が向上する。
論文 参考訳(メタデータ) (2024-03-27T10:09:38Z) - Local Conditional Controlling for Text-to-Image Diffusion Models [26.54188248406709]
拡散モデルは、テキスト・ツー・イメージのタスクにおいて素晴らしい成果を上げている。
近年の手法では、エッジマップや深度マップなどの画像レベルの構造制御を追加して、テキストプロンプトとともに生成プロセスを操作し、所望の画像を取得する。
この制御プロセスは、制御領域の柔軟性を制限する全画像上でグローバルに操作される。
論文 参考訳(メタデータ) (2023-12-14T09:31:33Z) - ControlNet-XS: Rethinking the Control of Text-to-Image Diffusion Models as Feedback-Control Systems [19.02295657801464]
本研究では,既存の制御ネットワーク(ControlNet)を用いて,制御ネットワークと生成プロセス間の通信を高周波かつ大帯域で変更する。
我々は,深度,キャニーエッジ,セマンティックセグメンテーションなどの画素レベルのガイダンスに対する最先端のアプローチよりも優れており,人間のポーズのゆるいキーポイントガイダンスと同等である。
すべてのコードと事前訓練されたモデルは公開されます。
論文 参考訳(メタデータ) (2023-12-11T17:58:06Z) - Cocktail: Mixing Multi-Modality Controls for Text-Conditional Image
Generation [79.8881514424969]
テキスト条件拡散モデルは多種多様な内容の高忠実度画像を生成することができる。
しかし、言語表現はしばしば、想定された目的像の曖昧な記述を示す。
様々なモダリティを1つの埋め込みに混ぜるパイプラインであるCocktailを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:55:32Z) - Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models [82.19740045010435]
ローカルコントロールとグローバルコントロールの同時利用を可能にする統合フレームワークであるUni-ControlNetを紹介した。
既存の方法とは異なり、Uni-ControlNetは、凍結した事前訓練されたテキスト-画像拡散モデル上に2つのアダプタを微調整するだけでよい。
Uni-ControlNetは、制御性、生成品質、構成性の観点から、既存のメソッドよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:58Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Attribute-specific Control Units in StyleGAN for Fine-grained Image
Manipulation [57.99007520795998]
特徴マップと変調スタイルの複数のチャネルからなる属性固有制御ユニットを探索する。
具体的には、制御ユニット内の変調スタイルのチャネルと特徴マップを協調的に操作し、意味的および空間的不整合制御を得る。
我々は、特定のスパース方向ベクトルに沿って変調スタイルを移動させ、これらの制御ユニットを操作するために特徴マップを計算するために使用されるフィルタワイズスタイルを置き換える。
論文 参考訳(メタデータ) (2021-11-25T10:42:10Z) - Style Intervention: How to Achieve Spatial Disentanglement with
Style-based Generators? [100.60938767993088]
任意の入力画像に適応し、フレキシブルな目的の下で自然な翻訳効果をレンダリングできる軽量な最適化アルゴリズムを提案する。
フォトリアリズムと一貫性の両方を必要とする高解像度画像の顔属性編集において,提案するフレームワークの性能を検証する。
論文 参考訳(メタデータ) (2020-11-19T07:37:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。