論文の概要: Follow the Flow: On Information Flow Across Textual Tokens in Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2504.01137v2
- Date: Wed, 13 Aug 2025 08:52:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 16:17:42.358502
- Title: Follow the Flow: On Information Flow Across Textual Tokens in Text-to-Image Models
- Title(参考訳): Follow the Flow:テキスト・ツー・イメージ・モデルにおけるテキスト・トークン間の情報フローについて
- Authors: Guy Kaplan, Michael Toker, Yuval Reif, Yonatan Belinkov, Roy Schwartz,
- Abstract要約: テキスト・ツー・イメージ・モデルにおいて,意味情報をトークン表現に分散させる方法について検討する。
情報は通常、アイテムのトークンの1つか2つだけに集中している。
場合によっては、アイテムはお互いの表現に影響を与え、しばしば誤解を招く。
- 参考スコア(独自算出の注目度): 35.85433370296494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image (T2I) models generate images by encoding text prompts into token representations, which then guide the diffusion process. While prior work has largely focused on improving alignment by refining the diffusion process, we focus on the textual encoding stage. Specifically, we investigate how semantic information is distributed across token representations within and between lexical items (i.e., words or expressions conveying a single concept) in the prompt. We analyze information flow at two levels: (1) in-item representation-whether individual tokens represent their lexical item, and (2) cross-item interaction-whether information flows across the tokens of different lexical items. We use patching techniques to uncover surprising encoding patterns. We find information is usually concentrated in only one or two of the item's tokens-For example, in the item "San Francisco's Golden Gate Bridge", the token "Gate" sufficiently captures the entire expression while the other tokens could effectively be discarded. Lexical items also tend to remain isolated; for instance, the token "dog" encodes no visual information about "green" in the prompt "a green dog". However, in some cases, items do influence each other's representation, often leading to misinterpretations-e.g., in the prompt "a pool by a table", the token pool represents a pool table after contextualization. Our findings highlight the critical role of token-level encoding in image generation, suggesting that misalignment issues may originate already during the textual encoding.
- Abstract(参考訳): Text-to-image (T2I) モデルは、テキストプロンプトをトークン表現にエンコードして画像を生成し、拡散プロセスを導く。
先行研究は拡散過程の精細化によるアライメントの改善に重点を置いているが,本研究はテキストエンコーディングの段階に焦点を当てている。
具体的には,プロンプト内の語彙項目(例えば,概念を伝達する単語や表現)のトークン表現における意味情報の分散について検討する。
我々は,(1)個々のトークンが語彙項目を表すかどうか,(2)異なる語彙項目のトークンにまたがって情報を流れるか,という2つのレベルにおける情報フローを解析する。
私たちは、驚くべきエンコーディングパターンを明らかにするためにパッチ技術を使用します。
例えば、"San Francisco's Golden Gate Bridge" という項目では、"Gate" というトークンが表現全体を十分にキャプチャし、他のトークンを効果的に破棄することができる。
例えば、"dog"というトークンは、"a green dog"というプロンプトの"green"に関する視覚的な情報をエンコードしない。
しかし、いくつかのケースでは、アイテムはお互いの表現に影響を与え、しばしば「テーブルのそばのプール」のプロンプトにおいて、コンテクスト化後のプールテーブルを表現する。
本研究は,画像生成におけるトークンレベルエンコーディングの重要性を強調し,テキストエンコーディングの過程ですでに誤認識の問題が発生している可能性を示唆している。
関連論文リスト
- LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs [40.11215282864732]
自然言語による記述に潜在表現をマッピングするための新しいアプローチであるLatentLensを紹介する。
本手法を10種類の視覚言語モデル(VLM)で評価する。
本研究では,LatentLensが生成した記述が意味論的に意味を持ち,人間に対してより微細な解釈を提供することを示す。
論文 参考訳(メタデータ) (2026-01-31T02:33:07Z) - Zero-Shot Chinese Character Recognition with Hierarchical Multi-Granularity Image-Text Aligning [52.92837273570818]
漢字は独特な構造と構成規則を示しており、表現にきめ細かい意味情報を使用することが可能である。
コントラストパラダイムに基づく階層型多言語画像テキストアライニング(Hi-GITA)フレームワークを提案する。
提案したHi-GITAは既存のゼロショットCCR法より優れている。
論文 参考訳(メタデータ) (2025-05-30T17:39:14Z) - Padding Tone: A Mechanistic Analysis of Padding Tokens in T2I Models [64.52046218688295]
テキスト・ツー・イメージ(T2I)拡散モデルは、画像生成プロセスのガイドとなるエンコードプロンプトに依存している。
我々は,T2Iモデルにおいてパディングトークンが果たす役割の詳細な分析を行う。
テキストエンコーディング中、拡散過程中、または効果的に無視される場合、パディングトークンがモデルの出力に影響を与える可能性がある。
論文 参考訳(メタデータ) (2025-01-12T08:36:38Z) - Don't Look into the Dark: Latent Codes for Pluralistic Image Inpainting [8.572133295533643]
本稿では,離散潜在符号の生成枠組みに基づく大規模マスク多元画像の描画手法を提案する。
本手法は,画像の可視な場所でのみ計算を行うことで,トークンとして識別された遅延先行を学習する。
論文 参考訳(メタデータ) (2024-03-27T01:28:36Z) - DEADiff: An Efficient Stylization Diffusion Model with Disentangled
Representations [64.43387739794531]
現在のエンコーダベースのアプローチは、スタイルの転送中にテキスト・ツー・イメージモデルのテキスト制御性を著しく損なう。
この問題に対処するために、以下の2つの戦略を用いてDEADiffを紹介します。
DeAiffは、テキスト・ツー・イメージモデルに固有のテキスト制御性と、参照画像とスタイルの類似性との間の最適な視覚的スタイリング結果と最適なバランスを得る。
論文 参考訳(メタデータ) (2024-03-11T17:35:23Z) - Diffusion Lens: Interpreting Text Encoders in Text-to-Image Pipelines [33.49257838597258]
テキスト間拡散モデル(T2I)は、テキストプロンプトの潜在表現を用いて、画像生成プロセスを導く。
本稿では,その中間表現から画像を生成することによって,T2Iモデルのテキストエンコーダを解析するDiffusion Lensを提案する。
論文 参考訳(メタデータ) (2024-03-09T09:11:49Z) - Contrastive Prompts Improve Disentanglement in Text-to-Image Diffusion
Models [68.47333676663312]
テキスト・ツー・イメージ・モデルにおける画像要素のアンタングル化に有効な分類器フリーガイダンスの簡単な修正法を示す。
提案手法のキーとなる考え方は、最小限のトークンで異なる2つのプロンプトを持つ意図された要因を特徴づけることである。
我々は,(1)オブジェクトクラスで訓練されたドメイン固有拡散モデル,(2)テキスト・画像生成のための連続的なリグライクな制御,(3)ゼロショット画像エディタの性能向上の3つのシナリオにおいて,その利点を説明する。
論文 参考訳(メタデータ) (2024-02-21T03:01:17Z) - Predicated Diffusion: Predicate Logic-Based Attention Guidance for Text-to-Image Diffusion Models [9.514940899499752]
拡散モデルは高品質で多彩で創造的な画像を生成することに顕著な成果を上げている。
しかし、テキストベースの画像生成に関しては、しばしばテキストに示される意図された意味を捉えることに失敗する。
ユーザの意図を表現する統合フレームワークであるPredicated Diffusionを提案する。
論文 参考訳(メタデータ) (2023-10-03T15:45:50Z) - The Hidden Language of Diffusion Models [70.03691458189604]
本稿では,テキスト概念の内部表現を拡散モデルで解釈する新しい手法であるConceptorを提案する。
概念間の驚くべき視覚的つながりは、それらのテキスト意味論を超越している。
我々はまた、模範的、偏見、名高い芸術様式、あるいは複数の意味の同時融合に依存する概念も発見する。
論文 参考訳(メタデータ) (2023-06-01T17:57:08Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [102.88033622546251]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - Revisiting Multimodal Representation in Contrastive Learning: From Patch
and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。
提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文 参考訳(メタデータ) (2023-03-27T00:58:39Z) - What Are You Token About? Dense Retrieval as Distributions Over the
Vocabulary [68.77983831618685]
本稿では,2つのエンコーダが生成するベクトル表現を,モデルの語彙空間に投影することで解釈する。
得られたプロジェクションは、リッチな意味情報を含み、それらの間の接続を描画し、スパース検索を行う。
論文 参考訳(メタデータ) (2022-12-20T16:03:25Z) - Compound Tokens: Channel Fusion for Vision-Language Representation
Learning [36.19486792701684]
質問応答タスクに視覚・言語表現を融合させる効果的な方法を提案する。
チャネルを融合させることで、標準的な方法と比較してトークンを効果的に整列させることができる。
オープン語彙設定において,エンド・ツー・エンドで訓練されたエンコーダ・デコーダ・ビジョン言語モデルを用いて複合トークンの有効性を示す。
論文 参考訳(メタデータ) (2022-12-02T21:09:52Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - Text-Guided Neural Image Inpainting [20.551488941041256]
塗装作業では、劣化した画像をコンテキストに整合した内容で埋める必要がある。
本論文の目的は, 提供される記述文に従って, 劣化画像中の意味情報を埋めることである。
テキストガイドデュアルアテンション・インパインティング・ネットワーク(TDANet)という新しいインパインティング・モデルを提案する。
論文 参考訳(メタデータ) (2020-04-07T09:04:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。