論文の概要: Where MLLMs Attend and What They Rely On: Explaining Autoregressive Token Generation
- arxiv url: http://arxiv.org/abs/2509.22496v2
- Date: Fri, 17 Oct 2025 07:14:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 13:49:08.724483
- Title: Where MLLMs Attend and What They Rely On: Explaining Autoregressive Token Generation
- Title(参考訳): MLLMが目指すもの - 自己回帰型トークン生成の解説
- Authors: Ruoyu Chen, Xiaoqing Guo, Kangwei Liu, Siyuan Liang, Shiming Liu, Qunli Zhang, Hua Zhang, Xiaochun Cao,
- Abstract要約: マルチモーダル大規模言語モデル(MLLM)は、視覚入力と自然言語出力の整合性を示す。
しかし、生成したトークンが視覚的モダリティに依存する範囲は、いまだに理解されていない。
MLLMにおける自己回帰トークン生成を説明するための軽量なブラックボックスフレームワークを提案する。
- 参考スコア(独自算出の注目度): 59.40886078302025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) have demonstrated remarkable capabilities in aligning visual inputs with natural language outputs. Yet, the extent to which generated tokens depend on visual modalities remains poorly understood, limiting interpretability and reliability. In this work, we present EAGLE, a lightweight black-box framework for explaining autoregressive token generation in MLLMs. EAGLE attributes any selected tokens to compact perceptual regions while quantifying the relative influence of language priors and perceptual evidence. The framework introduces an objective function that unifies sufficiency (insight score) and indispensability (necessity score), optimized via greedy search over sparsified image regions for faithful and efficient attribution. Beyond spatial attribution, EAGLE performs modality-aware analysis that disentangles what tokens rely on, providing fine-grained interpretability of model decisions. Extensive experiments across open-source MLLMs show that EAGLE consistently outperforms existing methods in faithfulness, localization, and hallucination diagnosis, while requiring substantially less GPU memory. These results highlight its effectiveness and practicality for advancing the interpretability of MLLMs. The code will be released at https://ruoyuchen10.github.io/EAGLE/.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)は、視覚入力と自然言語出力の整合性を示す。
しかし、生成したトークンが視覚的モダリティに依存する範囲は、解釈可能性と信頼性を制限し、まだ理解されていない。
本研究では,MLLMにおける自己回帰トークン生成を説明する軽量なブラックボックスフレームワークであるEAGLEを提案する。
EAGLEは選択されたトークンをコンパクトな知覚領域に属性付けし、言語先行と知覚的証拠の相対的な影響を定量化する。
このフレームワークは、忠実で効率的な帰属のために、スパース化された画像領域に対する欲求探索によって最適化された、満足度(視力欠如)と不必要度(不必要スコア)を統一する客観的機能を導入する。
空間属性以外にも、EAGLEは、トークンが依存するものを解剖するモダリティ認識分析を行い、モデル決定のきめ細かい解釈性を提供します。
オープンソースMLLMの広範な実験により、EAGLEは、GPUメモリを著しく少なくしながら、忠実さ、ローカライゼーション、幻覚診断において、既存の手法を一貫して上回っていることが示されている。
これらの結果は,MLLMの解釈可能性を高めるための有効性と実用性を強調した。
コードはhttps://ruoyuchen10.github.io/EAGLE/でリリースされる。
関連論文リスト
- Farther the Shift, Sparser the Representation: Analyzing OOD Mechanisms in LLMs [100.02824137397464]
難易度が増大する入力に遭遇した場合,大規模言語モデルが内部表現をどのように適応するかを検討する。
タスクの難易度が増大するにつれて、LLMの最後の隠れ状態は実質的にスペーサーとなる。
この空間性-微分的関係は、様々なモデルや領域で観測可能である。
論文 参考訳(メタデータ) (2026-03-03T18:48:15Z) - LLM-based Embeddings: Attention Values Encode Sentence Semantics Better Than Hidden States [13.418437639290532]
文表現は多くの自然言語処理(NLP)アプリケーションの基礎となっている。
本稿では,注目値ベクトルが隠れ状態よりも文の意味を効果的に捉えていることを示す,新しい視点を紹介する。
論文 参考訳(メタデータ) (2026-02-02T03:09:37Z) - Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - Token Activation Map to Visually Explain Multimodal LLMs [23.774995444587667]
本稿では,文脈の干渉を軽減し,高品質なMLLM記述を実現するための因果推論手法を提案する。
本稿では,トークン間の相互作用を考慮に入れたToken Activation Map (TAM) と呼ぶ。
我々のTAM法は既存のSoTA法を著しく上回り、高品質な可視化結果を示す。
論文 参考訳(メタデータ) (2025-06-29T14:50:45Z) - Attention Reallocation: Towards Zero-cost and Controllable Hallucination Mitigation of MLLMs [62.9348974370985]
約ゼロの余剰コストで幻覚を緩和するための注意再配置(AttnReal)を提案する。
我々のアプローチは,MLLMの注意分布が,歴史的出力トークンによって特徴が支配されるという重要な観測によって動機付けられている。
この観測に基づいて、AttnRealは出力トークンからの過剰な注意をリサイクルし、それを視覚トークンに再配置することで、MLLMの言語優先への依存を軽減します。
論文 参考訳(メタデータ) (2025-03-11T11:52:37Z) - Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [66.04061083611863]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。
DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。
DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文 参考訳(メタデータ) (2024-11-29T11:24:23Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z) - IERL: Interpretable Ensemble Representation Learning -- Combining
CrowdSourced Knowledge and Distributed Semantic Representations [11.008412414253662]
大言語モデル(LLM)は、単語の意味を分散意味論の形でエンコードする。
近年の研究では、LLMは意図しない、一貫性のない、あるいは間違ったテキストを出力として生成する傾向があることが示されている。
本稿では,LLMとクラウドソースの知識表現を体系的に組み合わせた新しいアンサンブル学習手法であるInterpretable Ensemble Representation Learning (IERL)を提案する。
論文 参考訳(メタデータ) (2023-06-24T05:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。