Fugu-MT 論文翻訳(概要): Understanding and Mitigating Compositional Issues in Text-to-Image Generative Models

論文の概要: Understanding and Mitigating Compositional Issues in Text-to-Image Generative Models

arxiv url: http://arxiv.org/abs/2406.07844v1
Date: Wed, 12 Jun 2024 03:21:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-13 18:34:46.512745
Title: Understanding and Mitigating Compositional Issues in Text-to-Image Generative Models
Title（参考訳）: テキスト・画像生成モデルにおける構成問題の理解と緩和
Authors: Arman Zarei, Keivan Rezaei, Samyadeep Basu, Mehrdad Saberi, Mazda Moayeri, Priyatham Kattakinda, Soheil Feizi,
Abstract要約: CLIPテキストエンコーダによる不完全なテキストコンディショニングは、高忠実な合成シーンを生成するためのテキスト・ツー・イメージ・モデルが欠如している主な理由の1つであることを示す。本研究の主目的は,モデルのFIDスコアを損なうことなく,最高の構成改善が達成できることである。
参考スコア（独自算出の注目度）: 46.723653095494896
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent text-to-image diffusion-based generative models have the stunning ability to generate highly detailed and photo-realistic images and achieve state-of-the-art low FID scores on challenging image generation benchmarks. However, one of the primary failure modes of these text-to-image generative models is in composing attributes, objects, and their associated relationships accurately into an image. In our paper, we investigate this compositionality-based failure mode and highlight that imperfect text conditioning with CLIP text-encoder is one of the primary reasons behind the inability of these models to generate high-fidelity compositional scenes. In particular, we show that (i) there exists an optimal text-embedding space that can generate highly coherent compositional scenes which shows that the output space of the CLIP text-encoder is sub-optimal, and (ii) we observe that the final token embeddings in CLIP are erroneous as they often include attention contributions from unrelated tokens in compositional prompts. Our main finding shows that the best compositional improvements can be achieved (without harming the model's FID scores) by fine-tuning {\it only} a simple linear projection on CLIP's representation space in Stable-Diffusion variants using a small set of compositional image-text pairs. This result demonstrates that the sub-optimality of the CLIP's output space is a major error source. We also show that re-weighting the erroneous attention contributions in CLIP can also lead to improved compositional performances, however these improvements are often less significant than those achieved by solely learning a linear projection head, highlighting erroneous attentions to be only a minor error source.
Abstract（参考訳）: 最近のテキストから画像への拡散に基づく生成モデルは、高精細でリアルな画像を生成し、挑戦的な画像生成ベンチマークで最先端の低いFIDスコアを達成することができる。しかしながら、これらのテキストから画像への生成モデルの主要な失敗モードの1つは、属性、オブジェクト、および関連する関係を正確に画像に合成することである。本稿では,CLIPテキストエンコーダによる不完全なテキストコンディショニングが,これらのモデルが高忠実な構成シーンを生成できない主な理由の1つであることを示す。特に私たちが示すのは (i)CLIPテキストエンコーダの出力空間が準最適であることを示す高一貫性な合成シーンを生成できる最適テキスト埋め込み空間が存在する。 (II)CLIPへの最後のトークン埋め込みは、しばしば、合成プロンプトにおける無関係なトークンからの注意貢献を含むため、誤っていることが観察された。本研究の主目的は,CLIPの表現空間上の単純な線形射影を,構成的画像-テキストペアの小さな集合を用いて行うことにより,(モデルのFIDスコアを損なわずに)最高の構成的改善が達成できることである。この結果は、CLIPの出力空間のサブ最適性が主要なエラー源であることを証明している。また,CLIPにおける誤注目度の再重み付けにより構成性能が向上することが示唆された。

関連論文リスト

VSC: Visual Search Compositional Text-to-Image Diffusion Model [15.682990658945682]
本稿では,一対のイメージ埋め込みを利用して属性オブジェクトの結合を改善する新しい合成生成手法を提案する。提案手法は,複雑なプロンプトをサブプロンプトに分解し,対応する画像を生成し,テキスト埋め込みと融合して表現を強化する視覚プロトタイプを計算する。提案手法は,T2I CompBenchベンチマークにおける既存の合成テキスト・画像拡散モデルより優れ,画像品質の向上,人間による評価,およびプロンプト内の結合対のスケーリングによる堅牢性の向上を実現している。
論文参考訳（メタデータ） (2025-05-02T08:31:43Z)
Unleashing Text-to-Image Diffusion Prior for Zero-Shot Image Captioning [70.98890307376548]
そこで本研究では,学習中に不信なコンテンツを適応的に緩和する,新しいPatch-wise Cross-modal Feature Mix-up(PCM)機構を提案する。私たちのPCM-Netは、ドメイン内およびクロスドメインのゼロショット画像キャプションの両方で第1位です。
論文参考訳（メタデータ） (2024-12-31T13:39:08Z)
DECOR:Decomposition and Projection of Text Embeddings for Text-to-Image Customization [15.920735314050296]
本研究では、テキスト埋め込み行列を分解し、埋め込み空間の幾何学を理解するためにコンポーネント分析を行う。不要なトークンベクトルに対してベクトル空間にテキスト埋め込みを投影するDECORを提案する。実験により、DECORは最先端のカスタマイズモデルよりも優れていることが示された。
論文参考訳（メタデータ） (2024-12-12T10:59:44Z)
TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文参考訳（メタデータ） (2024-11-04T19:24:59Z)
ComAlign: Compositional Alignment in Vision-Language Models [2.3250871476216814]
コンポジションアライメント(ComAlign)を導入し、テキストと画像コンポーネントのより正確な対応を見出す。本手法は, テキストのモダリティから抽出した構成構造も画像のモダリティに残さなければならないことを強調する。私たちは、小さなデータセットを使用して、既存のビジュアルおよび言語エンコーダの上に横たわる軽量ネットワークをトレーニングします。
論文参考訳（メタデータ） (2024-09-12T16:46:41Z)
Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文参考訳（メタデータ） (2024-04-27T02:04:36Z)
Object-Attribute Binding in Text-to-Image Generation: Evaluation and Control [58.37323932401379]
現在の拡散モデルは、入力としてテキストプロンプトが与えられたイメージを生成するが、テキストで言及されている属性を画像の正しいオブジェクトに正しく結び付けるのに苦労する。入力文中の構文的制約により視覚的注意マップを制御できる集中的横断注意(FCA)を提案する。我々は、T2I生成の大幅な改善、特にいくつかのデータセットに対する属性オブジェクトのバインディングを示す。
論文参考訳（メタデータ） (2024-04-21T20:26:46Z)
Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文参考訳（メタデータ） (2023-12-10T22:07:42Z)
LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis [24.925757148750684]
テキストプロンプトとレイアウト命令の両方に整合した高品質な画像を生成するのに優れたレイアウト・ツー・イメージ合成のためのトレーニング不要なアプローチを提案する。 LoCoは既存のテキスト・ツー・イメージモデルとレイアウト・ツー・イメージモデルにシームレスに統合され、空間制御の性能を高め、以前の方法で観察された意味障害に対処する。
論文参考訳（メタデータ） (2023-11-21T04:28:12Z)
Improving Compositional Text-to-image Generation with Large Vision-Language Models [26.202725136839632]
合成テキスト画像モデルは、入力テキストと整合した高品質な画像を生成するのにしばしば困難に直面する。生成した画像と対応する入力テキストのアライメントの多次元評価には,大規模視覚言語モデル(LVLM)を用いる。提案手法は,合成画像生成におけるテキスト画像のアライメントを大幅に改善することを確認した。
論文参考訳（メタデータ） (2023-10-10T05:09:05Z)
Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。 ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文参考訳（メタデータ） (2023-06-23T19:24:48Z)
Text encoders bottleneck compositionality in contrastive vision-language models [76.2406963762722]
単一ベクトルのテキスト表現からキャプションを再構築することを目的としたテキストのみのリカバリプローブを訓練する。 CLIPのテキストエンコーダは、より構成的な入力では不十分であることがわかった。結果は、テキストのみの回復性は、構成因子をモデル化するのに必要である(しかし十分ではない)ことを示唆している。
論文参考訳（メタデータ） (2023-05-24T08:48:44Z)
Attribute-Centric Compositional Text-to-Image Generation [45.12516226662346]
ACTIGは属性中心のコンポジションテキスト・ツー・イメージ生成フレームワークである。属性中心の特徴強化と,新しい画像のないトレーニング手法を提案する。 CelebA-HQおよびCUBデータセット上で、我々のフレームワークを検証する。
論文参考訳（メタデータ） (2023-01-04T03:03:08Z)
ComCLIP: Training-Free Compositional Image and Text Matching [19.373706257771673]
コントラスト言語-画像事前訓練は画像とテキストのマッチングに優れたゼロショット性能を示した。我々は新しいtextbftextittraining-free compositional CLIP model (ComCLIP) を提案する。 ComCLIPは、入力された画像を被写体、オブジェクト、アクションのサブイメージに切り離し、CLIPのビジョンエンコーダとテキストエンコーダを構成して、合成テキスト埋め込みとサブイメージ埋め込みに対する進化的なマッチングを実行する。
論文参考訳（メタデータ） (2022-11-25T01:37:48Z)
Hierarchical Text-Conditional Image Generation with CLIP Latents [20.476720970770128]
画像表現を明示的に生成することで、フォトリアリズムとキャプションの類似性が最小限に抑えられ、画像の多様性が向上することを示す。画像表現に条件付けされたデコーダは、その意味とスタイルの両方を保存した画像のバリエーションを生成できる。
論文参考訳（メタデータ） (2022-04-13T01:10:33Z)
No Token Left Behind: Explainability-Aided Image Classification and Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文参考訳（メタデータ） (2022-04-11T07:16:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。