論文の概要: Localized Text-to-Image Generation for Free via Cross Attention Control
- arxiv url: http://arxiv.org/abs/2306.14636v1
- Date: Mon, 26 Jun 2023 12:15:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 13:47:49.033809
- Title: Localized Text-to-Image Generation for Free via Cross Attention Control
- Title(参考訳): クロスアテンション制御による自由な局所テキスト・画像生成
- Authors: Yutong He, Ruslan Salakhutdinov, J. Zico Kolter
- Abstract要約: 提案手法は, 推論中のクロスアテンションマップを簡易に制御することで, 局所的な生成が可能であることを示す。
提案するクロスアテンション制御(CAC)は,標準のテキスト・ツー・イメージモデルに対して,新たなオープン語彙のローカライズ機能を提供する。
- 参考スコア(独自算出の注目度): 154.06530917754515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the tremendous success in text-to-image generative models, localized
text-to-image generation (that is, generating objects or features at specific
locations in an image while maintaining a consistent overall generation) still
requires either explicit training or substantial additional inference time. In
this work, we show that localized generation can be achieved by simply
controlling cross attention maps during inference. With no additional training,
model architecture modification or inference time, our proposed cross attention
control (CAC) provides new open-vocabulary localization abilities to standard
text-to-image models. CAC also enhances models that are already trained for
localized generation when deployed at inference time. Furthermore, to assess
localized text-to-image generation performance automatically, we develop a
standardized suite of evaluations using large pretrained recognition models.
Our experiments show that CAC improves localized generation performance with
various types of location information ranging from bounding boxes to semantic
segmentation maps, and enhances the compositional capability of
state-of-the-art text-to-image generative models.
- Abstract(参考訳): テキストから画像への生成モデルが驚くほど成功したにもかかわらず、ローカライズされたテキストから画像への生成(つまり、画像内の特定の位置でオブジェクトや特徴を生成しながら、一貫した全体生成を維持している)は、明示的なトレーニングまたはかなりの追加の推論時間を必要とする。
本研究では,推論中にクロスアテンションマップを単純に制御することで,局所化生成を実現できることを示す。
追加のトレーニングやモデルアーキテクチャの変更,あるいは推論時間なしで,提案したクロスアテンション制御(CAC)は,標準のテキスト・ツー・イメージモデルに新たなオープン語彙のローカライズ機能を提供する。
CACはまた、推論時にデプロイされた場合、すでにローカライズされた生成のためにトレーニングされているモデルを強化する。
さらに,局所的なテキスト・画像生成性能を自動評価するために,大規模な事前学習認識モデルを用いて,標準化された評価スイートを開発する。
実験により,cacは境界ボックスからセマンティクスセグメンテーションマップまで多種多様な位置情報を用いて局所的生成性能を改善し,最先端テキストから画像への生成モデルの合成能力を向上した。
関連論文リスト
- Active Generation for Image Classification [50.18107721267218]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。
能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文 参考訳(メタデータ) (2024-03-11T08:45:31Z) - Class Conditional Time Series Generation with Structured Noise Space GAN [5.7329872368416535]
SNS-GAN(Structured Noise Space GAN)は、画像および時系列データの両方において、クラス条件生成に適した生成モデル分野における新しいアプローチである。
この方法は、発電機のノイズ空間にクラス条件を埋め込み、トレーニングプロセスを簡素化し、モデルの汎用性を高める。
本研究は,時系列や画像データ生成に限らず,様々な領域にGANを適用するための新たな道を開く。
論文 参考訳(メタデータ) (2023-12-20T11:43:33Z) - SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form
Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。
SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。
また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文 参考訳(メタデータ) (2023-08-20T04:09:12Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z) - CAGAN: Text-To-Image Generation with Combined Attention GANs [70.3497683558609]
テキスト記述に基づく写真リアルな画像を生成するために,CAGAN(Combined Attention Generative Adversarial Network)を提案する。
提案されたCAGANは2つの注意モデルを用いている:関連語に条件付きで異なる部分領域を描画する単語注意と、チャネル間の非線形相互作用をキャプチャする絞りと励起の注意である。
スペクトル正規化によるトレーニングの安定化により、提案したCAGANは、CUBデータセット上のISとFID、より困難なCOCOデータセット上のFIDの技術を改良する。
論文 参考訳(メタデータ) (2021-04-26T15:46:40Z) - Local Class-Specific and Global Image-Level Generative Adversarial
Networks for Semantic-Guided Scene Generation [135.4660201856059]
局所的な文脈でシーン生成を学習し、意味マップをガイダンスとして、局所的なクラス固有の生成ネットワークを設計する。
局所生成のための識別クラス固有の特徴表現をより学習するために,新しい分類モジュールを提案する。
2つのシーン画像生成タスクの実験は、提案したモデルのより優れた生成性能を示す。
論文 参考訳(メタデータ) (2019-12-27T16:14:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。