Fugu-MT 論文翻訳(概要): Token Activation Map to Visually Explain Multimodal LLMs

論文の概要: Token Activation Map to Visually Explain Multimodal LLMs

arxiv url: http://arxiv.org/abs/2506.23270v1
Date: Sun, 29 Jun 2025 14:50:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-01 21:27:53.798081
Title: Token Activation Map to Visually Explain Multimodal LLMs
Title（参考訳）: マルチモーダルLCMの視覚的説明のためのToken Activation Map
Authors: Yi Li, Hualiang Wang, Xinpeng Ding, Haonan Wang, Xiaomeng Li,
Abstract要約: 本稿では,文脈の干渉を軽減し,高品質なMLLM記述を実現するための因果推論手法を提案する。本稿では,トークン間の相互作用を考慮に入れたToken Activation Map (TAM) と呼ぶ。我々のTAM法は既存のSoTA法を著しく上回り、高品質な可視化結果を示す。
参考スコア（独自算出の注目度）: 23.774995444587667
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal large language models (MLLMs) are broadly empowering various fields. Despite their advancements, the explainability of MLLMs remains less explored, hindering deeper understanding, model credibility, and effective visualization. Unlike conventional vision models (e.g., CNNs, ViTs, CLIP) that produce a single output, MLLMs generate sequences of tokens progressively, where each generated token depends on the previous context. Therefore, earlier context tokens can introduce redundant activations that interfere with the explanation of later tokens beyond their original information. Existing studies often overlook this issue, but our observations reveal that these redundant correlations can significantly hurt the reliability of explanations. To address this, we propose an estimated causal inference method to mitigate the interference of context to achieve high-quality MLLM explanation, with a novel rank Gaussian filter to further reduce activation noises. We term this method Token Activation Map (TAM) to highlight the consideration of interactions between tokens. TAM also indicates that it excels at explaining multiple tokens of MLLM, which is different from the Class Activation Map (CAM) for a single prediction. Our TAM method significantly outperforms existing SoTA methods, showcasing high-quality visualization results that can be utilized for various scenarios, such as object localization, failure case analysis, video visualization, MLLMs visual comparison, and model understanding (e.g., color, shape, action, location, visual reasoning, multi-turn conversation, etc). The code is available atgithub.com/xmed-lab/TAM.
Abstract（参考訳）: MLLM(Multimodal large language model)は、様々な分野に広く応用されている。これらの進歩にもかかわらず、MLLMの説明可能性については、より深い理解、モデルの信頼性、効果的な可視化を妨げている。単一の出力を生成する従来のビジョンモデル(CNN、ViT、CLIP)とは異なり、MLLMはトークンのシーケンスを徐々に生成し、各生成されたトークンは以前のコンテキストに依存する。したがって、初期のコンテキストトークンは、元の情報を超えた後のトークンの説明を妨げる冗長なアクティベーションを導入することができる。既存の研究はしばしばこの問題を見落としているが、これらの冗長な相関は説明の信頼性を著しく損なう可能性がある。そこで本研究では,文脈の干渉を軽減し,高品質なMLLM説明を実現するための推定因果推論手法を提案する。本稿では,トークン間の相互作用を考慮に入れたToken Activation Map (TAM) と呼ぶ。 TAMはまた、単一の予測のためにクラス活性化マップ(CAM)とは異なるMLLMの複数のトークンを説明するのが優れていることを示している。我々のTAM法は既存のSoTA法よりも優れており、オブジェクトのローカライゼーション、故障事例分析、ビデオ可視化、MLLMのビジュアル比較、モデル理解(例えば、色、形状、動作、位置、視覚的推論、マルチターン会話など)など、様々なシナリオで利用できる高品質な可視化結果を示している。コードは atgithub.com/xmed-lab/TAM で入手できる。

関連論文リスト

Grounded Chain-of-Thought for Multimodal Large Language Models [66.04061083611863]
我々は,GCoT(Gunded Chain-of-Thought)と呼ばれるマルチモーダル大規模言語モデル(MLLM)の新しい学習タスクを提案する。 GCoTは、MLLMが関連する視覚的手がかりを段階的に認識し、グラウンド化するのを支援し、グラウンド化座標による正しい解を直感的に予測する。この作業を容易にするために,5,033画像に対して24,022 GCoT例からなるマルチモーダルグラウンドド・チェーン・オブ・ソート(MM-GCoT)と呼ばれるデータセットを慎重に設計し,構築する。
論文参考訳（メタデータ） (2025-03-17T04:07:47Z)
Attention Reallocation: Towards Zero-cost and Controllable Hallucination Mitigation of MLLMs [62.9348974370985]
約ゼロの余剰コストで幻覚を緩和するための注意再配置(AttnReal)を提案する。我々のアプローチは,MLLMの注意分布が,歴史的出力トークンによって特徴が支配されるという重要な観測によって動機付けられている。この観測に基づいて、AttnRealは出力トークンからの過剰な注意をリサイクルし、それを視覚トークンに再配置することで、MLLMの言語優先への依存を軽減します。
論文参考訳（メタデータ） (2025-03-11T11:52:37Z)
ExLM: Rethinking the Impact of [MASK] Tokens in Masked Language Models [11.997499811414837]
Masked Language Models (ML)Mssは入力シーケンスの部分を[MASK]トークンでランダムにマスキングしてトレーニングし、残りのコンテキストに基づいて元のコンテンツを再構築する。
論文参考訳（メタデータ） (2025-01-23T05:46:50Z)
Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文参考訳（メタデータ） (2024-12-20T01:37:22Z)
Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [69.35226485836641]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。 DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。 DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文参考訳（メタデータ） (2024-11-29T11:24:23Z)
Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。 SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文参考訳（メタデータ） (2024-06-07T17:55:43Z)
Implicit Multimodal Alignment: On the Generalization of Frozen LLMs to Multimodal Inputs [63.29737699997859]
大規模言語モデル(LLM)は、マルチモーダルな微調整をせずに、マルチモーダルなタスクにおいて印象的なパフォーマンスを示した。本研究では,画像,ビデオ,音声,テキストの入力に凍結LDMを公開し,内部表現を解析する。
論文参考訳（メタデータ） (2024-05-26T21:31:59Z)
The Instinctive Bias: Spurious Images lead to Illusion in MLLMs [34.91795817316696]
MLLMは、非常に関連性が高いが、応答に矛盾する画像で構成されている。本稿では,スプリアス画像の視覚錯視レベルを評価する最初のベンチマークである相関QAを提案する。我々は9つの主流MLLMについて徹底的な分析を行い、これらの本能バイアスが様々な程度に普遍的に悩まされていることを指摘した。
論文参考訳（メタデータ） (2024-02-06T06:48:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。