Vision-Language Binding in In-Context Image Generation
Abstractの概要
本論文は、FLUX.2に焦点を当て、文脈内画像生成モデルが参照条件付き編集において、テキストトークン、参照画像トークン、出力画像トークン間でどのように情報をルーティングするかを調査している。T2I Lens、Attention Knockout、I2I-to-I2I Patchingという3つの因果的介入を用いて、著者はテキストトークンが参照画像から視覚情報を吸収し、その情報が生成に影響を与えるかどうかを検証した。オブジェクトの追加や削除、人物のカスタマイズ、色やスタイルの転送など2,875の編集タスクを通じて、経路間の一貫した役割分担があることが判明した。色やスタイル、シーン設定などの一般的で言語的な特性はテキストトークンに書き込まれる一方で、特定の人物のアイデンティティのようなピクセル単位で正確な特性はテキストトークンを迂回し、画像から画像へのアテンションを通じて直接伝達される。さらに本研究は、このクロスモーダルな結合が指示の内容トークンではなく、主にパディングトークンに局在していることを明らかにしている。
新規性
主な新規性は、画像編集用の統合アテンション・マルチモーダル拡散トランスフォーマー内部における、暗黙的な視覚・言語結合メカニズムの特定と因果的分析である。また、結合がテキストのパディングトークンに局在していることを特定した点や、テキストを介した転送と直接的な画像間ルーティングを分離する介入ベースのプローブを導入した点も特徴である。
成果
実験により、FLUX.2のテキストトークンは参照画像の色やスタイルを確実にエンコードして因果的に転送するが、正確な人物のアイデンティティは転送しないことが示された。T2I Lensはテキストトークンの活性化において色やスタイルの高い観測率を明らかにし、Attention Knockoutは参照からテキストへのアテンションを阻害すると色・スタイルの転送が強く破壊される一方で、参照から画像への阻害はアイデンティティに壊滅的であることを示し、I2I-to-I2I Patchingは色・スタイルを高い割合で転送するがアイデンティティには実質的に影響を与えないことを示した。追加のパディングのみのテストでは、結びつけられた参照情報は主にパディングトークンに存在し、内容トークンはこの転送にほとんど寄与しないことが示されている。
論文の注目点
- 文脈内画像編集において参照情報がFLUX.2内をどのように移動するかを分析するため、T2I Lens、Attention Knockout、I2I-to-I2I Patchingという3つの因果的プローブが使用された。
- 色、スタイル、シーンの文脈など、より抽象的で言語による記述が可能な参照特性はテキストトークンによって媒介されるが、ピクセルレベルで厳密なアイデンティティ情報は直接的な画像間アテンションを通じて伝達される。
- クロスモーダル結合は指示内容トークンではなく、主にテキストのパディングトークンに局在しており、マルチモーダル生成におけるパディングの構造的かつ予期せぬ役割を示唆している。