論文の概要: DEX-AR: A Dynamic Explainability Method for Autoregressive Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.06302v1
- Date: Fri, 06 Mar 2026 14:07:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.878975
- Title: DEX-AR: A Dynamic Explainability Method for Autoregressive Vision-Language Models
- Title(参考訳): DEX-AR:自己回帰型視覚言語モデルのための動的説明可能性法
- Authors: Walid Bousselham, Angie Boggust, Hendrik Strobelt, Hilde Kuehne,
- Abstract要約: 本稿では,新しい説明可能性法であるDEC-ARを提案する。
それは、モデルのテキスト応答に不可欠な画像領域を強調する、トーケン単位とシーケンスレベルの2Dヒートマップの両方を生成する。
ImageNet, VQAv2, PascalVOC による評価では, 両摂動測定値に一貫した改善が見られた。
- 参考スコア(独自算出の注目度): 27.64151438258739
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Vision-Language Models (VLMs) become increasingly sophisticated and widely used, it becomes more and more crucial to understand their decision-making process. Traditional explainability methods, designed for classification tasks, struggle with modern autoregressive VLMs due to their complex token-by-token generation process and intricate interactions between visual and textual modalities. We present DEX-AR (Dynamic Explainability for AutoRegressive models), a novel explainability method designed to address these challenges by generating both per-token and sequence-level 2D heatmaps highlighting image regions crucial for the model's textual responses. The proposed method offers to interpret autoregressive VLMs-including varying importance of layers and generated tokens-by computing layer-wise gradients with respect to attention maps during the token-by-token generation process. DEX-AR introduces two key innovations: a dynamic head filtering mechanism that identifies attention heads focused on visual information, and a sequence-level filtering approach that aggregates per-token explanations while distinguishing between visually-grounded and purely linguistic tokens. Our evaluation on ImageNet, VQAv2, and PascalVOC, shows a consistent improvement in both perturbation-based metrics, using a novel normalized perplexity measure, as well as segmentation-based metrics.
- Abstract(参考訳): VLM(Vision-Language Models)が洗練され、広く使われるようになると、意思決定プロセスを理解することがますます重要になる。
分類タスク用に設計された従来の説明可能性手法は、複雑なトークン・バイ・トケン生成プロセスと視覚的・テキスト的モダリティ間の複雑な相互作用のため、現代の自己回帰型VLMと競合する。
提案するDEX-AR(Dynamic Explainability for AutoRegressive Model)は,テキスト応答に欠かせない画像領域を強調表示する2次元熱マップを1点あたりとシーケンス単位で生成することで,これらの課題に対処する新しい説明可能性手法である。
提案手法は, トークン・バイ・トークン生成過程において, 注目マップに対して, 層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・層別・
DEX-ARは、視覚情報に焦点をあてた注意を識別する動的ヘッドフィルタリング機構と、視覚的に接地されたトークンと純粋に言語的なトークンを区別しながら、トーケン毎の説明を集約するシーケンスレベルのフィルタリングアプローチという2つの重要なイノベーションを導入している。
ImageNet, VQAv2, PascalVOC に対する評価では,新しい正規化パープレキシティ尺度とセグメンテーションに基づく測定値を用いて,両摂動に基づく測定値の整合性の向上が示されている。
関連論文リスト
- Self-Augmented Visual Contrastive Decoding [13.078702859025482]
LVLM(Large Vision-Language Models)は、目覚ましいマルチモーダル機能を示す。
LVLMは、基礎となる言語モデルから幻覚の傾向を継承する。
本研究では,これらの制約に対処する新しい学習自由復号法を提案する。
論文 参考訳(メタデータ) (2025-10-15T09:03:34Z) - IAR2: Improving Autoregressive Visual Generation with Semantic-Detail Associated Token Prediction [77.06211178777939]
IAR2は、階層的なセマンティックディーテール合成プロセスを可能にする高度な自己回帰フレームワークである。
我々は、IAR2が自動回帰画像生成のための新しい最先端技術を設定し、ImageNet上で1.50のFIDを達成することを示す。
論文 参考訳(メタデータ) (2025-10-08T12:08:21Z) - Understand Before You Generate: Self-Guided Training for Autoregressive Image Generation [110.03631978640298]
本稿では,視覚領域に次世代の予測パラダイムを適用するメカニズムについて,初めて体系的に検討する。
高レベルの視覚的意味論の学習を妨げる3つの重要な特性を同定する。
これらの課題は、訓練中に自己指導的目的を導入することで効果的に対処できることが示される。
論文 参考訳(メタデータ) (2025-09-18T17:47:40Z) - HERO: Rethinking Visual Token Early Dropping in High-Resolution Large Vision-Language Models [60.028070589466445]
本稿では,コンテンツ適応型トークン予算配分と関数対応トークン選択を統合したフレームワークHEROを提案する。
本研究は、HR-LVLMにおける効率的な推論に対する経験的洞察と実践的解決策の両方を提供する。
論文 参考訳(メタデータ) (2025-09-16T13:22:08Z) - Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。
HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文 参考訳(メタデータ) (2025-03-27T20:50:38Z) - A Dual-Directional Context-Aware Test-Time Learning for Text Classification [17.38491257321053]
動的双方向エルマン注意ネットワーク(DBEAN)を提案する。
DBEANは双方向の時間的モデリングと自己注意を組み合わせる。
クリティカルな入力セグメントを動的に重み付けし、計算効率を維持する。
論文 参考訳(メタデータ) (2025-03-19T17:45:13Z) - Dynamic Token Reduction during Generation for Vision Language Models [11.376359442815986]
視覚言語モデル(VLM)に適した動的プルーニング戦略を導入する。
提案手法は,注意分布に基づく刈り取り率の柔軟な調整を可能にする。
実験結果から,本手法は計算要求を低減させるだけでなく,応答の質も維持することが示された。
論文 参考訳(メタデータ) (2025-01-24T03:20:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。