論文の概要: GLIMPSE: Gradient-Layer Importance Mapping for Prompted Visual Saliency Explanation for Generative LVLMs
- arxiv url: http://arxiv.org/abs/2506.18985v1
- Date: Mon, 23 Jun 2025 18:00:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.3258
- Title: GLIMPSE: Gradient-Layer Importance Mapping for Prompted Visual Saliency Explanation for Generative LVLMs
- Title(参考訳): GLIMPSE: 生成LVLMのためのプロンプトビジュアル・サリエンシ記述のためのグラディエント・レイヤ・コンパタンスマッピング
- Authors: Guanxi Shen,
- Abstract要約: オープンエンド視覚質問応答(VQA)においてLVLMが依存する健全な画像領域を可視化するモデルに依存しないフレームワークであるGLIMPSEを紹介する。
GLIMPSEは、勾配重み付けされた注意、適応層伝播、および重み付けされたトークン集合を融合させ、クロスモーダル推論を解釈するための全体的応答レベル属性熱マップを生成する。
我々はGLIMPSEを用いた分析可能なAI(XAI)アプローチを実証し、LVLMのクロスモーダル属性、トークンレベルの推論ダイナミクスの詳細な洞察を明らかにし、体系的な人間の意図的ミスアライメント、幻覚、偏見を分析する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large vision language models (LVLMs) have unlocked unprecedented capabilities in generating coherent responses from visual inputs. However, interpreting where LVLMs direct their visual attention while generating free-form textual responses remains a significant challenge, yet is essential for understanding model behavior, diagnosing hallucination, exposing bias and ensuring transparency. We introduce GLIMPSE (Gradient-Layer Importance Mapping for Prompted Visual Saliency Explanation), a lightweight, model-agnostic framework for visualizing the salient image regions that LVLMs rely upon during open-ended visual question answering (VQA), while concurrently revealing the multimodal textual saliency. GLIMPSE fuses gradient-weighted attention, adaptive layer propagation, and weighted token aggregation to produce holistic response-level attribution heat maps for interpreting cross-modal reasoning, outperforming prior interpretability methods in human-alignment. We demonstrate an analytic explainable AI (XAI) approach using GLIMPSE to uncover fine-grained insights into LVLM cross-modal attribution, trace token-level reasoning dynamics, and analyze systematic human-attention misalignment, hallucination, and bias.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)の最近の進歩は、視覚入力からコヒーレントな応答を生成する前例のない能力を解き放ちつつある。
しかしながら、LVLMが自由形式のテキスト応答を生成しながら視覚的注意を向ける場所を解釈することは重要な課題であるが、モデル行動の理解、幻覚の診断、バイアスの顕在化、透明性の確保には不可欠である。
GLIMPSE(Gradient-Layer Importance Mapping for Prompted Visual Saliency Explanation)は,LVLMがオープンな視覚的質問応答(VQA)において依存する正像領域を可視化する,軽量でモデルに依存しないフレームワークである。
GLIMPSEは、勾配重み付けされた注意、適応層伝播、および重み付けされたトークン集合を融合させ、全体論的応答レベルの帰属熱マップを生成して、クロスモーダルな推論を解釈し、人間のアライメントにおける事前解釈可能性の手法より優れている。
我々はGLIMPSEを用いた分析可能なAI(XAI)アプローチを実証し、LVLMのクロスモーダル属性、トークンレベルの推論ダイナミクスの詳細な洞察を明らかにし、体系的な人間の意図的ミスアライメント、幻覚、偏見を分析する。
関連論文リスト
- SECOND: Mitigating Perceptual Hallucination in Vision-Language Models via Selective and Contrastive Decoding [5.976839106353883]
SECOND: Selective and Contrastive Decodingは、視覚言語モデルがオブジェクト中心の方法でマルチスケールの視覚情報を活用できるようにする新しいアプローチです。
SECONDは知覚幻覚を著しく減らし、幅広いベンチマークを上回ります。
論文 参考訳(メタデータ) (2025-06-10T02:55:38Z) - Exploring Implicit Visual Misunderstandings in Multimodal Large Language Models through Attention Analysis [21.869968563545736]
我々は、暗黙的な視覚的誤解(IVM)を定義し、MLLMは視覚的入力を完全に理解することなく正しい回答を提供する。
IVMの定量化には,スケール非依存の計量,テクスチャータテンションの精度,新しいベンチマークを導入する。
我々は、より微細な粒度にアプローチを拡張し、その効果を単調なシナリオで実証する。
論文 参考訳(メタデータ) (2025-05-15T17:52:40Z) - VLEER: Vision and Language Embeddings for Explainable Whole Slide Image Representation [3.695317701129061]
本稿では、WSI表現に視覚機能を活用するために設計された新しい方法であるVLEER(Vision and Language Embeddings for Explainable WSI Representation)を紹介する。
VLEERは、解釈可能性の独特な利点を提供し、結果に対する直接の人間可読な洞察を可能にする。
論文 参考訳(メタデータ) (2025-02-28T08:49:03Z) - Self-Correcting Decoding with Generative Feedback for Mitigating Hallucinations in Large Vision-Language Models [66.71616369573715]
LVLM(Large Vision-Language Models)は、与えられた視覚入力と一致しない幻覚的テキスト応答を生成する傾向がある。
テキストから画像への生成モデルからのフィードバックをデコードプロセスに組み込んだ,新たなトレーニングフリーアルゴリズムである生成フィードバック付き自己修正デコード(DeGF)を導入する。
論文 参考訳(メタデータ) (2025-02-10T03:43:55Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - From Redundancy to Relevance: Information Flow in LVLMs Across Reasoning Tasks [33.476693301050275]
我々は,視覚的質問応答と画像キャプションタスクのために,様々なLVLMの切り抜き戦略を用いて実験を行った。
視覚的表現の貢献の観点から情報の流れを探索することにより、浅い層に収束する傾向にあるが、より深い層に分散する傾向があることを観察する。
論文 参考訳(メタデータ) (2024-06-04T13:52:54Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。