論文の概要: Follow the Flow: On Information Flow Across Textual Tokens in Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2504.01137v1
- Date: Tue, 01 Apr 2025 19:17:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:22:44.884190
- Title: Follow the Flow: On Information Flow Across Textual Tokens in Text-to-Image Models
- Title(参考訳): Follow the Flow:テキスト・ツー・イメージ・モデルにおけるテキスト・トークン間の情報フローについて
- Authors: Guy Kaplan, Michael Toker, Yuval Reif, Yonatan Belinkov, Roy Schwartz,
- Abstract要約: テキスト・トゥ・イメージ(T2I)モデルは、しばしばセマンティック・リーク、不正確な特徴バインディング、生成した画像における重要な概念の欠落といった問題に悩まされる。
本研究は,テキストトークン表現間の情報フローの役割を考察することによって,これらの現象を研究する。
- 参考スコア(独自算出の注目度): 35.85433370296494
- License:
- Abstract: Text-to-Image (T2I) models often suffer from issues such as semantic leakage, incorrect feature binding, and omissions of key concepts in the generated image. This work studies these phenomena by looking into the role of information flow between textual token representations. To this end, we generate images by applying the diffusion component on a subset of contextual token representations in a given prompt and observe several interesting phenomena. First, in many cases, a word or multiword expression is fully represented by one or two tokens, while other tokens are redundant. For example, in "San Francisco's Golden Gate Bridge", the token "gate" alone captures the full expression. We demonstrate the redundancy of these tokens by removing them after textual encoding and generating an image from the resulting representation. Surprisingly, we find that this process not only maintains image generation performance but also reduces errors by 21\% compared to standard generation. We then show that information can also flow between different expressions in a sentence, which often leads to semantic leakage. Based on this observation, we propose a simple, training-free method to mitigate semantic leakage: replacing the leaked item's representation after the textual encoding with its uncontextualized representation. Remarkably, this simple approach reduces semantic leakage by 85\%. Overall, our work provides a comprehensive analysis of information flow across textual tokens in T2I models, offering both novel insights and practical benefits.
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)モデルは、しばしばセマンティック・リーク、不正確な特徴バインディング、生成した画像における重要な概念の欠落といった問題に悩まされる。
本研究は,テキストトークン表現間の情報フローの役割を考察することによって,これらの現象を研究する。
この目的のために、与えられたプロンプト内の文脈トークン表現のサブセットに拡散成分を適用して画像を生成し、いくつかの興味深い現象を観察する。
第一に、多くの場合、単語またはマルチワード表現は1つまたは2つのトークンで完全に表現され、他のトークンは冗長である。
例えば "San Francisco's Golden Gate Bridge" では、"gate" というトークンだけが完全な表現をキャプチャする。
テキストエンコーディング後にこれらのトークンを削除し、結果の表現から画像を生成することで、これらのトークンの冗長性を実証する。
驚くべきことに、このプロセスは画像生成性能を維持するだけでなく、標準生成と比較してエラーを21倍削減する。
次に、文中の異なる表現間の情報の流れが示され、しばしば意味的な漏れを引き起こす。
そこで本研究では,テキストエンコーディング後に漏洩した項目の表現を非コンテクスチュア化表現に置き換える,意味リークを軽減するための簡易なトレーニングフリー手法を提案する。
注目すべきは、この単純なアプローチはセマンティックリークを85%削減する。
全体として、我々の研究は、T2Iモデルにおけるテキストトークン間の情報フローを包括的に分析し、新しい洞察と実用的利益を提供する。
関連論文リスト
- Padding Tone: A Mechanistic Analysis of Padding Tokens in T2I Models [64.52046218688295]
テキスト・ツー・イメージ(T2I)拡散モデルは、画像生成プロセスのガイドとなるエンコードプロンプトに依存している。
我々は,T2Iモデルにおいてパディングトークンが果たす役割の詳細な分析を行う。
テキストエンコーディング中、拡散過程中、または効果的に無視される場合、パディングトークンがモデルの出力に影響を与える可能性がある。
論文 参考訳(メタデータ) (2025-01-12T08:36:38Z) - DEADiff: An Efficient Stylization Diffusion Model with Disentangled
Representations [64.43387739794531]
現在のエンコーダベースのアプローチは、スタイルの転送中にテキスト・ツー・イメージモデルのテキスト制御性を著しく損なう。
この問題に対処するために、以下の2つの戦略を用いてDEADiffを紹介します。
DeAiffは、テキスト・ツー・イメージモデルに固有のテキスト制御性と、参照画像とスタイルの類似性との間の最適な視覚的スタイリング結果と最適なバランスを得る。
論文 参考訳(メタデータ) (2024-03-11T17:35:23Z) - Diffusion Lens: Interpreting Text Encoders in Text-to-Image Pipelines [33.49257838597258]
テキスト間拡散モデル(T2I)は、テキストプロンプトの潜在表現を用いて、画像生成プロセスを導く。
本稿では,その中間表現から画像を生成することによって,T2Iモデルのテキストエンコーダを解析するDiffusion Lensを提案する。
論文 参考訳(メタデータ) (2024-03-09T09:11:49Z) - Contrastive Prompts Improve Disentanglement in Text-to-Image Diffusion
Models [68.47333676663312]
テキスト・ツー・イメージ・モデルにおける画像要素のアンタングル化に有効な分類器フリーガイダンスの簡単な修正法を示す。
提案手法のキーとなる考え方は、最小限のトークンで異なる2つのプロンプトを持つ意図された要因を特徴づけることである。
我々は,(1)オブジェクトクラスで訓練されたドメイン固有拡散モデル,(2)テキスト・画像生成のための連続的なリグライクな制御,(3)ゼロショット画像エディタの性能向上の3つのシナリオにおいて,その利点を説明する。
論文 参考訳(メタデータ) (2024-02-21T03:01:17Z) - Predicated Diffusion: Predicate Logic-Based Attention Guidance for Text-to-Image Diffusion Models [9.514940899499752]
拡散モデルは高品質で多彩で創造的な画像を生成することに顕著な成果を上げている。
しかし、テキストベースの画像生成に関しては、しばしばテキストに示される意図された意味を捉えることに失敗する。
ユーザの意図を表現する統合フレームワークであるPredicated Diffusionを提案する。
論文 参考訳(メタデータ) (2023-10-03T15:45:50Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [102.88033622546251]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - What Are You Token About? Dense Retrieval as Distributions Over the
Vocabulary [68.77983831618685]
本稿では,2つのエンコーダが生成するベクトル表現を,モデルの語彙空間に投影することで解釈する。
得られたプロジェクションは、リッチな意味情報を含み、それらの間の接続を描画し、スパース検索を行う。
論文 参考訳(メタデータ) (2022-12-20T16:03:25Z) - Text-Guided Neural Image Inpainting [20.551488941041256]
塗装作業では、劣化した画像をコンテキストに整合した内容で埋める必要がある。
本論文の目的は, 提供される記述文に従って, 劣化画像中の意味情報を埋めることである。
テキストガイドデュアルアテンション・インパインティング・ネットワーク(TDANet)という新しいインパインティング・モデルを提案する。
論文 参考訳(メタデータ) (2020-04-07T09:04:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。