論文の概要: Improving Compositional Attribute Binding in Text-to-Image Generative Models via Enhanced Text Embeddings
- arxiv url: http://arxiv.org/abs/2406.07844v2
- Date: Mon, 24 Mar 2025 21:33:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:49:45.572761
- Title: Improving Compositional Attribute Binding in Text-to-Image Generative Models via Enhanced Text Embeddings
- Title(参考訳): テキスト埋め込みによるテキスト・画像生成モデルにおける合成属性結合の改善
- Authors: Arman Zarei, Keivan Rezaei, Samyadeep Basu, Mehrdad Saberi, Mazda Moayeri, Priyatham Kattakinda, Soheil Feizi,
- Abstract要約: テキストから画像への生成モデルにおける合成属性の結合障害について検討する。
CLIPテキストエンコーダによる不完全なテキストコンディショニングは、これらのモデルが高忠実な構成シーンを生成することができない主な理由の1つであることを示す。
本研究の主目的は,モデルのFIDスコアを損なうことなく,構成上の大幅な改善が達成できることである。
- 参考スコア(独自算出の注目度): 46.723653095494896
- License:
- Abstract: Text-to-image diffusion-based generative models have the stunning ability to generate photo-realistic images and achieve state-of-the-art low FID scores on challenging image generation benchmarks. However, one of the primary failure modes of these text-to-image generative models is in composing attributes, objects, and their associated relationships accurately into an image. In our paper, we investigate compositional attribute binding failures, where the model fails to correctly associate descriptive attributes (such as color, shape, or texture) with the corresponding objects in the generated images, and highlight that imperfect text conditioning with CLIP text-encoder is one of the primary reasons behind the inability of these models to generate high-fidelity compositional scenes. In particular, we show that (i) there exists an optimal text-embedding space that can generate highly coherent compositional scenes showing that the output space of the CLIP text-encoder is sub-optimal, and (ii) the final token embeddings in CLIP are erroneous as they often include attention contributions from unrelated tokens in compositional prompts. Our main finding shows that significant compositional improvements can be achieved (without harming the model's FID score) by fine-tuning only a simple and parameter-efficient linear projection on CLIP's representation space in Stable-Diffusion variants using a small set of compositional image-text pairs.
- Abstract(参考訳): テキストから画像への拡散に基づく生成モデルは、画像リアリスティックな画像を生成し、挑戦的な画像生成ベンチマークで最先端の低いFIDスコアを達成することができる。
しかしながら、これらのテキストから画像への生成モデルの主要な失敗モードの1つは、属性、オブジェクト、および関連する関係を正確に画像に合成することである。
本稿では,CLIPテキストエンコーダを用いた不完全なテキストコンディショニングが,これらのモデルが高忠実な合成シーンを生成できない主な理由の1つであることを強調した上で,モデルが生成した画像中の対応するオブジェクトと記述的属性(色,形状,テクスチャなど)を正しく関連付けることができない構成的属性結合障害について検討する。
特に私たちが示すのは
(i)CLIPテキストエンコーダの出力空間が準最適であることを示す高一貫性な合成シーンを生成することができる最適なテキスト埋め込み空間が存在する。
(ii)CLIPへの最後のトークン埋め込みは、しばしば構成的プロンプトにおいて無関係なトークンからの注意貢献を含むため、誤っている。
本研究の主目的は,CLIP の表現空間上の単純かつパラメータ効率のよい線形射影のみを,少量の合成画像-テキスト対を用いて微調整することにより,構成的改善(FIDスコアを損なうことなく)が達成できることである。
関連論文リスト
- Unleashing Text-to-Image Diffusion Prior for Zero-Shot Image Captioning [70.98890307376548]
そこで本研究では,学習中に不信なコンテンツを適応的に緩和する,新しいPatch-wise Cross-modal Feature Mix-up(PCM)機構を提案する。
私たちのPCM-Netは、ドメイン内およびクロスドメインのゼロショット画像キャプションの両方で第1位です。
論文 参考訳(メタデータ) (2024-12-31T13:39:08Z) - DECOR:Decomposition and Projection of Text Embeddings for Text-to-Image Customization [15.920735314050296]
本研究では、テキスト埋め込み行列を分解し、埋め込み空間の幾何学を理解するためにコンポーネント分析を行う。
不要なトークンベクトルに対してベクトル空間にテキスト埋め込みを投影するDECORを提案する。
実験により、DECORは最先端のカスタマイズモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-12-12T10:59:44Z) - TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - ComAlign: Compositional Alignment in Vision-Language Models [2.3250871476216814]
コンポジションアライメント(ComAlign)を導入し、テキストと画像コンポーネントのより正確な対応を見出す。
本手法は, テキストのモダリティから抽出した構成構造も画像のモダリティに残さなければならないことを強調する。
私たちは、小さなデータセットを使用して、既存のビジュアルおよび言語エンコーダの上に横たわる軽量ネットワークをトレーニングします。
論文 参考訳(メタデータ) (2024-09-12T16:46:41Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - Improving Compositional Text-to-image Generation with Large
Vision-Language Models [26.202725136839632]
合成テキスト画像モデルは、入力テキストと整合した高品質な画像を生成するのにしばしば困難に直面する。
生成した画像と対応する入力テキストのアライメントの多次元評価には,大規模視覚言語モデル(LVLM)を用いる。
提案手法は,合成画像生成におけるテキスト画像のアライメントを大幅に改善することを確認した。
論文 参考訳(メタデータ) (2023-10-10T05:09:05Z) - Text encoders bottleneck compositionality in contrastive vision-language
models [76.2406963762722]
単一ベクトルのテキスト表現からキャプションを再構築することを目的としたテキストのみのリカバリプローブを訓練する。
CLIPのテキストエンコーダは、より構成的な入力では不十分であることがわかった。
結果は、テキストのみの回復性は、構成因子をモデル化するのに必要である(しかし十分ではない)ことを示唆している。
論文 参考訳(メタデータ) (2023-05-24T08:48:44Z) - ComCLIP: Training-Free Compositional Image and Text Matching [19.373706257771673]
コントラスト言語-画像事前訓練は画像とテキストのマッチングに優れたゼロショット性能を示した。
我々は新しいtextbftextittraining-free compositional CLIP model (ComCLIP) を提案する。
ComCLIPは、入力された画像を被写体、オブジェクト、アクションのサブイメージに切り離し、CLIPのビジョンエンコーダとテキストエンコーダを構成して、合成テキスト埋め込みとサブイメージ埋め込みに対する進化的なマッチングを実行する。
論文 参考訳(メタデータ) (2022-11-25T01:37:48Z) - Hierarchical Text-Conditional Image Generation with CLIP Latents [20.476720970770128]
画像表現を明示的に生成することで、フォトリアリズムとキャプションの類似性が最小限に抑えられ、画像の多様性が向上することを示す。
画像表現に条件付けされたデコーダは、その意味とスタイルの両方を保存した画像のバリエーションを生成できる。
論文 参考訳(メタデータ) (2022-04-13T01:10:33Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。