論文の概要: GLIMPSE: Gradient-Layer Importance Mapping for Prompted Visual Saliency Explanation for Generative LVLMs
- arxiv url: http://arxiv.org/abs/2506.18985v2
- Date: Mon, 30 Jun 2025 17:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 13:01:42.705818
- Title: GLIMPSE: Gradient-Layer Importance Mapping for Prompted Visual Saliency Explanation for Generative LVLMs
- Title(参考訳): GLIMPSE: 生成LVLMのためのプロンプトビジュアル・サリエンシ記述のためのグラディエント・レイヤ・コンパタンスマッピング
- Authors: Guanxi Shen,
- Abstract要約: GLIMPSEは、LVLM出力を最も関連性の高い視覚的エビデンスと、オープンエンドVQAをサポートするテキスト信号に属性付けるモデルに依存しないフレームワークである。
GLIMPSEは、勾配重み付けされた注意、適応層伝播、および関連重み付けされたトークン集合を融合させ、クロスモーダル推論を解釈するための全体的応答レベル熱マップを生成する。
GLIMPSEを用いた分析可能なAI(XAI)アプローチを実演し、LVLMのクロスモーダル属性、トレース推論のダイナミクス、系統的な人的意図の不一致の分析、診断、バイアスの露呈、透明性の確保について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in large vision-language models (LVLMs) has advanced the state of the art in visual question answering (VQA). However, interpreting where LVLMs direct their visual attention while generating free-form responses remains a significant challenge, yet is essential for understanding model behavior. We introduce GLIMPSE (Gradient-Layer Importance Mapping for Prompted Visual Saliency Explanation), a lightweight, model-agnostic framework that jointly attributes LVLM outputs to the most relevant visual evidence and textual signals supporting open-ended VQA. GLIMPSE fuses gradient-weighted attention, adaptive layer propagation, and relevance-weighted token aggregation to produce holistic response-level heat maps for interpreting cross-modal reasoning, outperforming prior interpretability methods and pushing the state-of-the-art in human-alignment. We demonstrate an analytic explainable AI (XAI) approach using GLIMPSE to uncover fine-grained insights into LVLM cross-modal attribution, trace reasoning dynamics, analyze systematic human-attention misalignment, diagnose hallucination, expose bias, and ensure transparency.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)の最近の進歩は、視覚的質問応答(VQA)における最先端の進歩である。
しかし、LVLMが自由形式の応答を生成しながら視覚的注意を向けている場合の解釈は、重要な課題であるが、モデル行動を理解するには不可欠である。
GLIMPSE(Gradient-Layer Importance Mapping for Prompted Visual Saliency Explanation)は、LVLM出力を最も関連性の高い視覚的エビデンスと、オープンなVQAをサポートするテキスト信号に共用する軽量でモデルに依存しないフレームワークである。
GLIMPSEは、勾配重み付けされた注意、適応層伝播、および関連重み付けされたトークン集約を融合させ、クロスモーダル推論を解釈し、事前の解釈可能性の手法より優れ、人間のアライメントにおける最先端を推し進めるための、全体的な応答レベル熱マップを生成する。
GLIMPSEを用いた分析可能なAI(XAI)アプローチを実演し、LVLMのクロスモーダル属性、トレース推論のダイナミクス、系統的人間の意図的不一致の分析、幻覚の診断、偏見の露呈、透明性の確保について述べる。
関連論文リスト
- SECOND: Mitigating Perceptual Hallucination in Vision-Language Models via Selective and Contrastive Decoding [5.976839106353883]
SECOND: Selective and Contrastive Decodingは、視覚言語モデルがオブジェクト中心の方法でマルチスケールの視覚情報を活用できるようにする新しいアプローチです。
SECONDは知覚幻覚を著しく減らし、幅広いベンチマークを上回ります。
論文 参考訳(メタデータ) (2025-06-10T02:55:38Z) - Exploring Implicit Visual Misunderstandings in Multimodal Large Language Models through Attention Analysis [21.869968563545736]
我々は、暗黙的な視覚的誤解(IVM)を定義し、MLLMは視覚的入力を完全に理解することなく正しい回答を提供する。
IVMの定量化には,スケール非依存の計量,テクスチャータテンションの精度,新しいベンチマークを導入する。
我々は、より微細な粒度にアプローチを拡張し、その効果を単調なシナリオで実証する。
論文 参考訳(メタデータ) (2025-05-15T17:52:40Z) - VLEER: Vision and Language Embeddings for Explainable Whole Slide Image Representation [3.695317701129061]
本稿では、WSI表現に視覚機能を活用するために設計された新しい方法であるVLEER(Vision and Language Embeddings for Explainable WSI Representation)を紹介する。
VLEERは、解釈可能性の独特な利点を提供し、結果に対する直接の人間可読な洞察を可能にする。
論文 参考訳(メタデータ) (2025-02-28T08:49:03Z) - Self-Correcting Decoding with Generative Feedback for Mitigating Hallucinations in Large Vision-Language Models [66.71616369573715]
LVLM(Large Vision-Language Models)は、与えられた視覚入力と一致しない幻覚的テキスト応答を生成する傾向がある。
テキストから画像への生成モデルからのフィードバックをデコードプロセスに組み込んだ,新たなトレーニングフリーアルゴリズムである生成フィードバック付き自己修正デコード(DeGF)を導入する。
論文 参考訳(メタデータ) (2025-02-10T03:43:55Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - From Redundancy to Relevance: Information Flow in LVLMs Across Reasoning Tasks [33.476693301050275]
我々は,視覚的質問応答と画像キャプションタスクのために,様々なLVLMの切り抜き戦略を用いて実験を行った。
視覚的表現の貢献の観点から情報の流れを探索することにより、浅い層に収束する傾向にあるが、より深い層に分散する傾向があることを観察する。
論文 参考訳(メタデータ) (2024-06-04T13:52:54Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。