論文の概要: LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs
- arxiv url: http://arxiv.org/abs/2602.00462v1
- Date: Sat, 31 Jan 2026 02:33:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.199861
- Title: LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs
- Title(参考訳): LatentLens: LLMで高い解釈可能なビジュアルトークンを発見
- Authors: Benno Krojer, Shravan Nayak, Oscar Mañas, Vaibhav Adlakha, Desmond Elliott, Siva Reddy, Marius Mosbach,
- Abstract要約: 自然言語による記述に潜在表現をマッピングするための新しいアプローチであるLatentLensを紹介する。
本手法を10種類の視覚言語モデル(VLM)で評価する。
本研究では,LatentLensが生成した記述が意味論的に意味を持ち,人間に対してより微細な解釈を提供することを示す。
- 参考スコア(独自算出の注目度): 40.11215282864732
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transforming a large language model (LLM) into a Vision-Language Model (VLM) can be achieved by mapping the visual tokens from a vision encoder into the embedding space of an LLM. Intriguingly, this mapping can be as simple as a shallow MLP transformation. To understand why LLMs can so readily process visual tokens, we need interpretability methods that reveal what is encoded in the visual token representations at every layer of LLM processing. In this work, we introduce LatentLens, a novel approach for mapping latent representations to descriptions in natural language. LatentLens works by encoding a large text corpus and storing contextualized token representations for each token in that corpus. Visual token representations are then compared to their contextualized textual representations, with the top-k nearest neighbor representations providing descriptions of the visual token. We evaluate this method on 10 different VLMs, showing that commonly used methods, such as LogitLens, substantially underestimate the interpretability of visual tokens. With LatentLens instead, the majority of visual tokens are interpretable across all studied models and all layers. Qualitatively, we show that the descriptions produced by LatentLens are semantically meaningful and provide more fine-grained interpretations for humans compared to individual tokens. More broadly, our findings contribute new evidence on the alignment between vision and language representations, opening up new directions for analyzing latent representations.
- Abstract(参考訳): 大きな言語モデル(LLM)を視覚言語モデル(VLM)に変換することは、視覚エンコーダから視覚トークンをLLMの埋め込み空間にマッピングすることで実現できる。
興味深いことに、この写像は浅い MLP 変換と同じくらい単純である。
LLMが容易に視覚的トークンを処理できる理由を理解するために、LCM処理のすべての層で視覚的トークン表現にコード化されているものを明らかにするための解釈可能性手法が必要である。
本研究では,自然言語による記述に潜在表現をマッピングする新しい手法であるLatentLensを紹介する。
LatentLensは、大きなテキストコーパスをエンコードし、そのコーパス内の各トークンのコンテキスト化トークン表現を格納する。
視覚トークン表現は、コンテキスト化されたテキスト表現と比較され、視覚トークンの記述を提供する最上位の隣接表現が提供される。
この手法を10種類の異なるVLM上で評価し、LogitLensのような一般的な手法が視覚トークンの解釈可能性を大幅に過小評価していることを示す。
代わりにLatentLensでは、視覚トークンの大部分は、すべての研究されたモデルとすべてのレイヤで解釈できる。
定性的には、LatentLensが生成した記述が意味論的に意味を持ち、個々のトークンと比較してより微細な解釈を提供することを示す。
より広範に、視覚と言語表現の整合性に関する新たな証拠を提供し、潜在表現を解析するための新たな方向を開く。
関連論文リスト
- Revisit What You See: Disclose Language Prior in Vision Tokens for LVLM Decoding [6.612630497074871]
LVLM(Large Vision-Language Models)は、視覚認識と言語理解を統合することで、マルチモーダルタスクにおける強力なパフォーマンスを実現する。
テキスト生成のガイドとして視覚トークンを参照するトレーニング不要な復号法であるReVisiTを提案する。
論文 参考訳(メタデータ) (2025-06-11T08:46:55Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。