論文の概要: Localized Text-to-Image Generation for Free via Cross Attention Control
- arxiv url: http://arxiv.org/abs/2306.14636v1
- Date: Mon, 26 Jun 2023 12:15:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 13:47:49.033809
- Title: Localized Text-to-Image Generation for Free via Cross Attention Control
- Title(参考訳): クロスアテンション制御による自由な局所テキスト・画像生成
- Authors: Yutong He, Ruslan Salakhutdinov, J. Zico Kolter
- Abstract要約: 提案手法は, 推論中のクロスアテンションマップを簡易に制御することで, 局所的な生成が可能であることを示す。
提案するクロスアテンション制御(CAC)は,標準のテキスト・ツー・イメージモデルに対して,新たなオープン語彙のローカライズ機能を提供する。
- 参考スコア(独自算出の注目度): 154.06530917754515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the tremendous success in text-to-image generative models, localized
text-to-image generation (that is, generating objects or features at specific
locations in an image while maintaining a consistent overall generation) still
requires either explicit training or substantial additional inference time. In
this work, we show that localized generation can be achieved by simply
controlling cross attention maps during inference. With no additional training,
model architecture modification or inference time, our proposed cross attention
control (CAC) provides new open-vocabulary localization abilities to standard
text-to-image models. CAC also enhances models that are already trained for
localized generation when deployed at inference time. Furthermore, to assess
localized text-to-image generation performance automatically, we develop a
standardized suite of evaluations using large pretrained recognition models.
Our experiments show that CAC improves localized generation performance with
various types of location information ranging from bounding boxes to semantic
segmentation maps, and enhances the compositional capability of
state-of-the-art text-to-image generative models.
- Abstract(参考訳): テキストから画像への生成モデルが驚くほど成功したにもかかわらず、ローカライズされたテキストから画像への生成(つまり、画像内の特定の位置でオブジェクトや特徴を生成しながら、一貫した全体生成を維持している)は、明示的なトレーニングまたはかなりの追加の推論時間を必要とする。
本研究では,推論中にクロスアテンションマップを単純に制御することで,局所化生成を実現できることを示す。
追加のトレーニングやモデルアーキテクチャの変更,あるいは推論時間なしで,提案したクロスアテンション制御(CAC)は,標準のテキスト・ツー・イメージモデルに新たなオープン語彙のローカライズ機能を提供する。
CACはまた、推論時にデプロイされた場合、すでにローカライズされた生成のためにトレーニングされているモデルを強化する。
さらに,局所的なテキスト・画像生成性能を自動評価するために,大規模な事前学習認識モデルを用いて,標準化された評価スイートを開発する。
実験により,cacは境界ボックスからセマンティクスセグメンテーションマップまで多種多様な位置情報を用いて局所的生成性能を改善し,最先端テキストから画像への生成モデルの合成能力を向上した。
関連論文リスト
- Powerful and Flexible: Personalized Text-to-Image Generation via Reinforcement Learning [40.06403155373455]
個人化されたテキスト・画像生成のための新しい強化学習フレームワークを提案する。
提案手法は、テキストアライメントを維持しながら、視覚的忠実度に大きな差で既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-09T08:11:53Z) - Regularized Training with Generated Datasets for Name-Only Transfer of Vision-Language Models [36.59260354292177]
近年のテキスト・画像生成の進歩により、研究者は生成モデルを用いて知覚モデルに適したデータセットを生成するようになった。
我々は、実際の画像にアクセスせずに、視覚言語モデルを特定の分類モデルに微調整することを目指している。
生成した画像の忠実度が高いにもかかわらず、生成したデータセットを用いてモデルを微調整すると、顕著な性能劣化が観測された。
論文 参考訳(メタデータ) (2024-06-08T10:43:49Z) - Active Generation for Image Classification [45.93535669217115]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。
能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文 参考訳(メタデータ) (2024-03-11T08:45:31Z) - SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form
Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。
SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。
また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文 参考訳(メタデータ) (2023-08-20T04:09:12Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z) - GIT: A Generative Image-to-text Transformer for Vision and Language [138.91581326369837]
我々は、画像/映像キャプションや質問応答などの視覚言語タスクを統合するために、生成画像からテキストへ変換するGITを訓練する。
われわれのモデルはTextCaps(CIDErで138.2対125.5)で初めて人間のパフォーマンスを上回った。
論文 参考訳(メタデータ) (2022-05-27T17:03:38Z) - CAGAN: Text-To-Image Generation with Combined Attention GANs [70.3497683558609]
テキスト記述に基づく写真リアルな画像を生成するために,CAGAN(Combined Attention Generative Adversarial Network)を提案する。
提案されたCAGANは2つの注意モデルを用いている:関連語に条件付きで異なる部分領域を描画する単語注意と、チャネル間の非線形相互作用をキャプチャする絞りと励起の注意である。
スペクトル正規化によるトレーニングの安定化により、提案したCAGANは、CUBデータセット上のISとFID、より困難なCOCOデータセット上のFIDの技術を改良する。
論文 参考訳(メタデータ) (2021-04-26T15:46:40Z) - Local Class-Specific and Global Image-Level Generative Adversarial
Networks for Semantic-Guided Scene Generation [135.4660201856059]
局所的な文脈でシーン生成を学習し、意味マップをガイダンスとして、局所的なクラス固有の生成ネットワークを設計する。
局所生成のための識別クラス固有の特徴表現をより学習するために,新しい分類モジュールを提案する。
2つのシーン画像生成タスクの実験は、提案したモデルのより優れた生成性能を示す。
論文 参考訳(メタデータ) (2019-12-27T16:14:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。