Fugu-MT 論文翻訳(概要): Right Predictions, Misleading Explanations: On the Vulnerability of Vision-Language Model Explanations

論文の概要: Right Predictions, Misleading Explanations: On the Vulnerability of Vision-Language Model Explanations

arxiv url: http://arxiv.org/abs/2605.16651v1
Date: Fri, 15 May 2026 21:44:16 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-19 17:57:46.896239
Title: Right Predictions, Misleading Explanations: On the Vulnerability of Vision-Language Model Explanations
Title（参考訳）: 正しい予測, 誤解を招く説明:視覚言語モデル説明の脆弱性について
Authors: Narges Babadi, Hadis Karimipour,
Abstract要約: 説明メカニズムは、視覚言語モデルにおける透明性と信頼をサポートするために、ますます利用されています。モデル本来の予測を保ちながら,説明地図を体系的に操作可能であることを示す。我々は、パッチレベルの視覚表現を摂動させ、説明熱マップをリダイレクトする新しいグレイボックス攻撃であるX-Shiftを紹介する。
参考スコア（独自算出の注目度）: 0.8594140167290097
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Explanation mechanisms are increasingly used to support transparency and trust in vision-language models (VLMs), particularly in settings where model decisions require human oversight. However, the robustness of these explanations remains insufficiently understood. In this work, we investigate whether explanation heatmaps in VLMs, particularly CLIP-based models, faithfully reflect model reasoning under adversarial conditions. We show that explanation maps can be systematically manipulated while preserving the model's original prediction, revealing a disconnect between predictive behavior and explanation faithfulness. To study this vulnerability, we introduce X-Shift, a novel grey-box attack that perturbs patch-level visual representations to redirect explanation heatmaps toward semantically irrelevant regions without altering the predicted output. Unlike conventional adversarial attacks that aim to induce misclassification, X-Shift specifically targets the integrity of the explanation process itself. The attack operates without modifying model parameters and generalizes across multiple CLIP architectures and explanation methods. We evaluate the proposed approach on ImageNet-1k, MS-COCO, and Flickr30K, demonstrating consistent degradation in explanation alignment under imperceptible perturbations while maintaining prediction stability. Furthermore, standard prediction-oriented adversarial attacks fail to reproduce the same explanation-shifting behavior even under substantially larger perturbation budgets. Our findings highlight a fundamental limitation of current explanation mechanisms in VLMs and raise concerns about their use as reliable indicators of model trustworthiness in high-impact applications.
Abstract（参考訳）: 説明メカニズムは、視覚言語モデル(VLM)の透明性と信頼性をサポートするために、特にモデル決定が人間の監督を必要とする設定において、ますます用いられる。しかし、これらの説明の堅牢性はいまだに十分に理解されていない。本研究では,VLM モデル,特に CLIP モデルにおける熱マップの説明が,敵対的条件下でのモデル推論を忠実に反映するかどうかを考察する。モデル本来の予測を保ちながら、説明地図を体系的に操作できることを示し、予測行動と説明の忠実さの解離を明らかにする。この脆弱性を研究するために、我々は、予測された出力を変更することなく、パッチレベルの視覚表現を摂動させ、意味的に無関係な領域への説明ヒートマップをリダイレクトする、新しいグレーボックス攻撃であるX-Shiftを導入する。誤分類を誘発しようとする従来の敵攻撃とは異なり、X-Shiftは説明プロセス自体の整合性を特にターゲットとしている。この攻撃はモデルパラメータを変更することなく動作し、複数のCLIPアーキテクチャと説明メソッドをまたいで一般化する。提案手法をImageNet-1k, MS-COCO, Flickr30Kで評価し, 予測安定性を維持しつつ, 知覚不能な摂動下での説明アライメントが一貫した劣化を示した。さらに、標準的な予測指向の敵攻撃は、かなり大きな摂動予算の下でも、同じ説明シフト動作を再現することができない。本研究は,VLMにおける現在の説明機構の根本的な制限と,信頼性の高いモデル信頼性指標としての利用に対する懸念を提起するものである。

関連論文リスト

Decoding the Critique Mechanism in Large Reasoning Models [50.821607345799386]
大規模推論モデル(LRM)は、バックトラックと自己検証メカニズムを示し、中間ステップを修正して正しい解に到達できるようにする。中間推論ステップに算術ミスを挿入することにより,現在のLEMがエラーからどのように回復するかを検討する。チェーン・オブ・シークレットを伝播する誤りにもかかわらず、モデルは依然として正しい最終解に達している。
論文参考訳（メタデータ） (2026-03-17T10:03:30Z)
Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文参考訳（メタデータ） (2026-02-06T12:24:26Z)
ATEX-CF: Attack-Informed Counterfactual Explanations for Graph Neural Networks [11.482900418658078]
ATEX-CFは、敵攻撃技術と対実的説明生成を統一するフレームワークである。提案手法は, 理論的に基礎を置き, エッジ付加と削除の両方を効率よく統合し, 衝撃的な反事実を探索する。合成および実世界のノード分類ベンチマークの実験は、ATEX-CFが忠実で簡潔で妥当な説明を生成することを示した。
論文参考訳（メタデータ） (2026-02-05T22:36:30Z)
Understanding Degradation with Vision Language Model [56.09241449206817]
視覚的劣化を理解することは、コンピュータビジョンにおいて重要な問題であるが、難しい問題である。本稿では,教師付き微調整と強化学習を併用したマルチモーダル・チェーン・オブ・ソート・モデルであるDU-VLMを紹介する。また,110,000個のクリーン劣化ペアと接地された物理アノテーションからなる大規模データセットである textbfDU-110k も導入した。
論文参考訳（メタデータ） (2026-02-04T13:51:15Z)
Character as a Latent Variable in Large Language Models: A Mechanistic Account of Emergent Misalignment and Conditional Safety Failures [70.48661957773449]
創発的ミスアライメント(英: Emergent Misalignment)とは、狭い範囲のデータに対する微調整された大きな言語モデルによって、広範囲に不整合な振る舞いが引き起こされる障害モードを指す。複数のドメインやモデルファミリにまたがって、特定の文字レベルの配置を示すデータの微調整モデルは、誤操作よりもはるかに強く、転送可能な微調整を誘導する。
論文参考訳（メタデータ） (2026-01-30T15:28:42Z)
Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文参考訳（メタデータ） (2026-01-07T16:39:34Z)
Improving Perturbation-based Explanations by Understanding the Role of Uncertainty Calibration [34.62583246144584]
本研究では,モデルが説明可能性に比例した摂動を受けると,信頼できない確率推定値が得られることを示す。本稿では,ReCalXを提案する。ReCalXは,従来の予測を保ちながら,改善された説明のためのモデルの再検討を行う新しい手法である。
論文参考訳（メタデータ） (2025-11-13T16:04:11Z)
eXIAA: eXplainable Injections for Adversarial Attack [3.512208543873998]
ポストホックな説明可能な人工知能(XAI)のための新しいブラックボックスモデル非依存的敵攻撃を示す。攻撃の目的は、人間の目によって発見されず、予測されたクラスを維持しながら、元の説明を変更することである。提案手法の低要件は、現在の説明可能性手法において重大な脆弱性を露呈し、安全クリティカルなアプリケーションにおける信頼性に関する懸念を提起する。
論文参考訳（メタデータ） (2025-11-13T08:42:24Z)
Why Uncertainty Calibration Matters for Reliable Perturbation-based Explanations [30.47728009839025]
本研究では,説明可能性固有の摂動を受けると,モデルが信頼できない確率推定をしばしば生成することを示す。 ReCalXは、摂動に基づく説明を改善するためのモデルを再検討するための新しいアプローチである。
論文参考訳（メタデータ） (2025-06-24T13:54:12Z)
Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文参考訳（メタデータ） (2021-03-18T12:57:34Z)
Towards Transparent and Explainable Attention Models [34.0557018891191]
まず,LSTMをベースとしたエンコーダにおける現在の注意機構が,モデルの予測を忠実に,あるいは妥当に説明できない理由を説明する。本研究では,異なる時間ステップで学習した隠れ表現が多様であることを保証するため,多様性駆動型学習目標を持つLSTM細胞を改良した。人的評価は,本モデルが学習した注意分布が,モデルの予測を妥当に説明できることを示唆している。
論文参考訳（メタデータ） (2020-04-29T14:47:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。