論文の概要: Follow the Flow: On Information Flow Across Textual Tokens in Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2504.01137v2
- Date: Wed, 13 Aug 2025 08:52:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 16:17:42.358502
- Title: Follow the Flow: On Information Flow Across Textual Tokens in Text-to-Image Models
- Title(参考訳): Follow the Flow:テキスト・ツー・イメージ・モデルにおけるテキスト・トークン間の情報フローについて
- Authors: Guy Kaplan, Michael Toker, Yuval Reif, Yonatan Belinkov, Roy Schwartz,
- Abstract要約: テキスト・ツー・イメージ・モデルにおいて,意味情報をトークン表現に分散させる方法について検討する。
情報は通常、アイテムのトークンの1つか2つだけに集中している。
場合によっては、アイテムはお互いの表現に影響を与え、しばしば誤解を招く。
- 参考スコア(独自算出の注目度): 35.85433370296494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image (T2I) models generate images by encoding text prompts into token representations, which then guide the diffusion process. While prior work has largely focused on improving alignment by refining the diffusion process, we focus on the textual encoding stage. Specifically, we investigate how semantic information is distributed across token representations within and between lexical items (i.e., words or expressions conveying a single concept) in the prompt. We analyze information flow at two levels: (1) in-item representation-whether individual tokens represent their lexical item, and (2) cross-item interaction-whether information flows across the tokens of different lexical items. We use patching techniques to uncover surprising encoding patterns. We find information is usually concentrated in only one or two of the item's tokens-For example, in the item "San Francisco's Golden Gate Bridge", the token "Gate" sufficiently captures the entire expression while the other tokens could effectively be discarded. Lexical items also tend to remain isolated; for instance, the token "dog" encodes no visual information about "green" in the prompt "a green dog". However, in some cases, items do influence each other's representation, often leading to misinterpretations-e.g., in the prompt "a pool by a table", the token pool represents a pool table after contextualization. Our findings highlight the critical role of token-level encoding in image generation, suggesting that misalignment issues may originate already during the textual encoding.
- Abstract(参考訳): Text-to-image (T2I) モデルは、テキストプロンプトをトークン表現にエンコードして画像を生成し、拡散プロセスを導く。
先行研究は拡散過程の精細化によるアライメントの改善に重点を置いているが,本研究はテキストエンコーディングの段階に焦点を当てている。
具体的には,プロンプト内の語彙項目(例えば,概念を伝達する単語や表現)のトークン表現における意味情報の分散について検討する。
我々は,(1)個々のトークンが語彙項目を表すかどうか,(2)異なる語彙項目のトークンにまたがって情報を流れるか,という2つのレベルにおける情報フローを解析する。
私たちは、驚くべきエンコーディングパターンを明らかにするためにパッチ技術を使用します。
例えば、"San Francisco's Golden Gate Bridge" という項目では、"Gate" というトークンが表現全体を十分にキャプチャし、他のトークンを効果的に破棄することができる。
例えば、"dog"というトークンは、"a green dog"というプロンプトの"green"に関する視覚的な情報をエンコードしない。
しかし、いくつかのケースでは、アイテムはお互いの表現に影響を与え、しばしば「テーブルのそばのプール」のプロンプトにおいて、コンテクスト化後のプールテーブルを表現する。
本研究は,画像生成におけるトークンレベルエンコーディングの重要性を強調し,テキストエンコーディングの過程ですでに誤認識の問題が発生している可能性を示唆している。
関連論文リスト
- Padding Tone: A Mechanistic Analysis of Padding Tokens in T2I Models [64.52046218688295]
テキスト・ツー・イメージ(T2I)拡散モデルは、画像生成プロセスのガイドとなるエンコードプロンプトに依存している。
我々は,T2Iモデルにおいてパディングトークンが果たす役割の詳細な分析を行う。
テキストエンコーディング中、拡散過程中、または効果的に無視される場合、パディングトークンがモデルの出力に影響を与える可能性がある。
論文 参考訳(メタデータ) (2025-01-12T08:36:38Z) - DEADiff: An Efficient Stylization Diffusion Model with Disentangled
Representations [64.43387739794531]
現在のエンコーダベースのアプローチは、スタイルの転送中にテキスト・ツー・イメージモデルのテキスト制御性を著しく損なう。
この問題に対処するために、以下の2つの戦略を用いてDEADiffを紹介します。
DeAiffは、テキスト・ツー・イメージモデルに固有のテキスト制御性と、参照画像とスタイルの類似性との間の最適な視覚的スタイリング結果と最適なバランスを得る。
論文 参考訳(メタデータ) (2024-03-11T17:35:23Z) - Diffusion Lens: Interpreting Text Encoders in Text-to-Image Pipelines [33.49257838597258]
テキスト間拡散モデル(T2I)は、テキストプロンプトの潜在表現を用いて、画像生成プロセスを導く。
本稿では,その中間表現から画像を生成することによって,T2Iモデルのテキストエンコーダを解析するDiffusion Lensを提案する。
論文 参考訳(メタデータ) (2024-03-09T09:11:49Z) - Contrastive Prompts Improve Disentanglement in Text-to-Image Diffusion
Models [68.47333676663312]
テキスト・ツー・イメージ・モデルにおける画像要素のアンタングル化に有効な分類器フリーガイダンスの簡単な修正法を示す。
提案手法のキーとなる考え方は、最小限のトークンで異なる2つのプロンプトを持つ意図された要因を特徴づけることである。
我々は,(1)オブジェクトクラスで訓練されたドメイン固有拡散モデル,(2)テキスト・画像生成のための連続的なリグライクな制御,(3)ゼロショット画像エディタの性能向上の3つのシナリオにおいて,その利点を説明する。
論文 参考訳(メタデータ) (2024-02-21T03:01:17Z) - Predicated Diffusion: Predicate Logic-Based Attention Guidance for Text-to-Image Diffusion Models [9.514940899499752]
拡散モデルは高品質で多彩で創造的な画像を生成することに顕著な成果を上げている。
しかし、テキストベースの画像生成に関しては、しばしばテキストに示される意図された意味を捉えることに失敗する。
ユーザの意図を表現する統合フレームワークであるPredicated Diffusionを提案する。
論文 参考訳(メタデータ) (2023-10-03T15:45:50Z) - The Hidden Language of Diffusion Models [70.03691458189604]
本稿では,テキスト概念の内部表現を拡散モデルで解釈する新しい手法であるConceptorを提案する。
概念間の驚くべき視覚的つながりは、それらのテキスト意味論を超越している。
我々はまた、模範的、偏見、名高い芸術様式、あるいは複数の意味の同時融合に依存する概念も発見する。
論文 参考訳(メタデータ) (2023-06-01T17:57:08Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [102.88033622546251]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - What Are You Token About? Dense Retrieval as Distributions Over the
Vocabulary [68.77983831618685]
本稿では,2つのエンコーダが生成するベクトル表現を,モデルの語彙空間に投影することで解釈する。
得られたプロジェクションは、リッチな意味情報を含み、それらの間の接続を描画し、スパース検索を行う。
論文 参考訳(メタデータ) (2022-12-20T16:03:25Z) - Text-Guided Neural Image Inpainting [20.551488941041256]
塗装作業では、劣化した画像をコンテキストに整合した内容で埋める必要がある。
本論文の目的は, 提供される記述文に従って, 劣化画像中の意味情報を埋めることである。
テキストガイドデュアルアテンション・インパインティング・ネットワーク(TDANet)という新しいインパインティング・モデルを提案する。
論文 参考訳(メタデータ) (2020-04-07T09:04:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。