論文の概要: Explanation-Driven Counterfactual Testing for Faithfulness in Vision-Language Model Explanations
- arxiv url: http://arxiv.org/abs/2510.00047v1
- Date: Sat, 27 Sep 2025 15:16:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.134917
- Title: Explanation-Driven Counterfactual Testing for Faithfulness in Vision-Language Model Explanations
- Title(参考訳): 視覚言語モデル記述における忠実度に対する説明駆動型対実テスト
- Authors: Sihao Ding, Santosh Vasa, Aditi Ramadwar,
- Abstract要約: 視覚言語モデル(VLM)はしばしば、説得力があるが予測を導く因果的要因を反映しない、流動的な自然言語説明(NLE)を生成する。
この妥当性と忠実性のミスマッチは、技術的およびガバナンスのリスクを引き起こす。
本稿では,対象VLMの完全自動検証手法であるExplaination-Driven Counterfactual Testing (EDCT)を紹介する。
- 参考スコア(独自算出の注目度): 0.8657627742603715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) often produce fluent Natural Language Explanations (NLEs) that sound convincing but may not reflect the causal factors driving predictions. This mismatch of plausibility and faithfulness poses technical and governance risks. We introduce Explanation-Driven Counterfactual Testing (EDCT), a fully automated verification procedure for a target VLM that treats the model's own explanation as a falsifiable hypothesis. Given an image-question pair, EDCT: (1) obtains the model's answer and NLE, (2) parses the NLE into testable visual concepts, (3) generates targeted counterfactual edits via generative inpainting, and (4) computes a Counterfactual Consistency Score (CCS) using LLM-assisted analysis of changes in both answers and explanations. Across 120 curated OK-VQA examples and multiple VLMs, EDCT uncovers substantial faithfulness gaps and provides regulator-aligned audit artifacts indicating when cited concepts fail causal tests.
- Abstract(参考訳): 視覚言語モデル(VLM)はしばしば、説得力があるが予測を導く因果的要因を反映しないような、流動的な自然言語説明(NLE)を生成する。
この妥当性と忠実性のミスマッチは、技術的およびガバナンスのリスクを引き起こす。
本稿では,対象VLMの完全自動検証手法であるExplaination-Driven Counterfactual Testing (EDCT)を紹介する。
EDCT:(1)はモデルの回答とNLEを取得し、(2)NLEをテスト可能な視覚概念に解析し、(3)生成的インペインティングによりターゲットの対実編集を生成し、(4)LLM支援による両回答と説明の変化の分析を用いて対実整合スコア(CCS)を算出する。
120以上のキュレートされたOK-VQAの例と複数のVLMにおいて、EDCTは相当な忠実さのギャップを明らかにし、引用された概念が因果テストに失敗することを示す規制に準拠した監査アーティファクトを提供する。
関連論文リスト
- Believing without Seeing: Quality Scores for Contextualizing Vision-Language Model Explanations [41.09442370052903]
本稿では,2つの品質スコアリング機能を用いて,VLMによる説明の相補的な2つの特性を評価することを提案する。
参加者は視覚的コンテキストを観察することなく,VLM予測が正確かどうかを判断しなければならない。
VLMの精度を11.1%向上させることで,VLMの精度が向上することが観察された。
論文 参考訳(メタデータ) (2025-09-30T06:34:21Z) - Do What? Teaching Vision-Language-Action Models to Reject the Impossible [53.40183895299108]
VLA(Vision-Language-Action)モデルは、さまざまなロボットタスクにおいて強力なパフォーマンスを示している。
Instruct-Verify-and-Act(IVA)を提案する。
実験の結果,IVAはベースラインよりも97.56%の精度で虚偽の前提検出精度を向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-22T10:54:33Z) - LatentQA: Teaching LLMs to Decode Activations Into Natural Language [72.87064562349742]
自然言語におけるモデルアクティベーションに関するオープンな疑問に答えるタスクであるLatentQAを紹介する。
本稿では,アクティベーションと関連する質問応答ペアのデータセット上で,デコーダLLMを微調整するLatent Interpretation Tuning (LIT)を提案する。
我々のデコーダはまた、ステレオタイプ付き文のモデルのデバイアス化や世代ごとの感情制御など、モデルを制御するために使用する差別化可能な損失も規定している。
論文 参考訳(メタデータ) (2024-12-11T18:59:33Z) - Evaluating the Reliability of Self-Explanations in Large Language Models [2.8894038270224867]
このような自己説明の2つのタイプ – 抽出的, 対実的 – を評価した。
以上の結果から,これらの自己説明は人間の判断と相関するが,モデルの決定過程を完全に的確に従わないことが明らかとなった。
このギャップを橋渡しできるのは, 反実的な説明をLCMに促すことによって, 忠実で, 情報的で, 容易に検証できる結果が得られるからである。
論文 参考訳(メタデータ) (2024-07-19T17:41:08Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Faithfulness Tests for Natural Language Explanations [87.01093277918599]
ニューラルモデルの説明は、その予測のためのモデルの意思決定プロセスを明らかにすることを目的としている。
近年の研究では,サリエンシマップやファクトファクトファクトダクトなどの説明を行う手法が誤解を招く可能性があることが示されている。
本研究は,自然言語の説明の忠実さを評価する上での課題について考察する。
論文 参考訳(メタデータ) (2023-05-29T11:40:37Z) - Counterfactuals of Counterfactuals: a back-translation-inspired approach
to analyse counterfactual editors [3.4253416336476246]
我々は、反事実的、対照的な説明の分析に焦点をあてる。
本稿では,新しい逆翻訳に基づく評価手法を提案する。
本研究では, 予測モデルと説明モデルの両方の振る舞いについて, 反事実を反復的に説明者に与えることで, 価値ある洞察を得ることができることを示す。
論文 参考訳(メタデータ) (2023-05-26T16:04:28Z) - Benchmarking Faithfulness: Towards Accurate Natural Language
Explanations in Vision-Language Tasks [0.0]
自然言語の説明(NLE)は、モデルの意思決定を容易に理解可能な方法でコミュニケーション可能にすることを約束する。
現在のモデルは説得力のある説明をうまく生成するが、NLEが実際にモデルの推論過程をいかにうまく表現しているかは未解決の問題である。
帰属相似性(Atribution-Similarity)、NLE-Sufficiency(NLE-Sufficiency)、NLE-Comprehensiveness(NLE-Comprehensiveness)の3つの忠実度指標を提案する。
論文 参考訳(メタデータ) (2023-04-03T08:24:10Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。