論文の概要: Not All Explanations Simulate Equally: Comparing Verbalized Feature Attributions and Self-Generated Rationales
- arxiv url: http://arxiv.org/abs/2606.01148v1
- Date: Sun, 31 May 2026 10:35:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.280275
- Title: Not All Explanations Simulate Equally: Comparing Verbalized Feature Attributions and Self-Generated Rationales
- Title(参考訳): すべての説明が等しくシミュレートするわけではない: 動詞化された特徴属性と自己生成論理の比較
- Authors: Pingjun Hong, Benjamin Roth,
- Abstract要約: 本稿では,質問応答モデルに対する2種類の説明を,言語化された特徴属性と自己生成的有理性と比較する。
説明源,動詞化戦略,特徴粒度が説明のシミュラビリティにどのように影響するかを分析する。
- 参考スコア(独自算出の注目度): 1.8772057593980798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural-language explanations are often treated as a unified interface for understanding model behavior, but different explanation sources may support simulation in different ways. This paper compares two families of explanations for question answering models: verbalized feature attributions and self-generated rationales. We evaluate them under a shared counterfactual simulation setting, using an LLM judge as predictor and measuring whether it can better predict a model's answers to follow-up questions when given its explanation. Across multiple instruction-tuned models, we analyze how explanation source, verbalization strategy, and feature granularity affect the simulatability of explanations. Our results show that explanation format and granularity affect simulatability: attribution-based explanations and self-generated rationales differ in how much they improve counterfactual prediction, with effects that vary across models and formats.
- Abstract(参考訳): 自然言語の説明はしばしばモデル行動を理解するための統一インターフェースとして扱われるが、異なる説明源は異なる方法でシミュレーションをサポートすることができる。
本稿では,質問応答モデルに対する2種類の説明を,言語化された特徴属性と自己生成的有理性と比較する。
提案手法は, LLM の判断を予測器として使用し, モデル回答をよりよく予測できるかどうかを, その説明を得た上で, 共用対実シミュレーション環境下で評価する。
複数の命令調整モデルを通して、説明源、動詞化戦略、特徴の粒度が説明のシミュラビリティにどのように影響するかを分析する。
帰属に基づく説明と自己生成的合理性は、モデルや形式によって異なる影響で、いかに反現実的予測を改善するかによって異なる。
関連論文リスト
- Evaluating the Ability of Explanations to Disambiguate Models in a Rashomon Set [10.788168368884804]
本稿では,特徴重要説明の質を評価するために,説明評価の3つの原則と新しい手法"AXE"を提案する。
モデル説明と理想的根拠的真理的説明を比べた評価指標が,ラッショモン集合内の行動的差異を曖昧にしていることを示す。
論文 参考訳(メタデータ) (2026-01-13T16:31:11Z) - Do LLM Self-Explanations Help Users Predict Model Behavior? Evaluating Counterfactual Simulatability with Pragmatic Perturbations [1.8772057593980798]
大規模言語モデル(LLM)は、言語化された自己説明を生成することができる。
我々は,人間とLLMの審査員が,偽のフォローアップ質問に対するモデルの回答をどの程度予測できるかを評価する。
論文 参考訳(メタデータ) (2026-01-07T10:13:26Z) - Explanation sensitivity to the randomness of large language models: the case of journalistic text classification [6.240875403446504]
本研究では,大規模言語モデルの学習におけるランダム要素の影響について,その予測可能性について検討する。
微調整のCamemBERTモデルと、関連性伝播に基づく説明手法を用いて、異なるランダムシードを用いたトレーニングは、類似の精度であるが可変的な説明を伴うモデルを生成する。
論文 参考訳(メタデータ) (2024-10-07T14:39:45Z) - Causal Generative Explainers using Counterfactual Inference: A Case
Study on the Morpho-MNIST Dataset [5.458813674116228]
本稿では,視覚的特徴と因果的要因の影響を研究するために,生成的対実的推論手法を提案する。
我々は,OmnixAIオープンソースツールキットの視覚的説明手法を用いて,提案手法との比較を行った。
このことから,本手法は因果的データセットの解釈に極めて適していることが示唆された。
論文 参考訳(メタデータ) (2024-01-21T04:07:48Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - MaNtLE: Model-agnostic Natural Language Explainer [9.43206883360088]
モデルに依存しない自然言語説明器であるMaNtLEを導入し、複数の分類器の予測を解析する。
MaNtLEは、何千もの合成分類タスクでマルチタスクトレーニングを使用して、忠実な説明を生成する。
シミュレーションユーザスタディでは、平均して、MaNtLEの生成した説明は、LIMEやAnchorsの説明に比べて少なくとも11%忠実であることが示されている。
論文 参考訳(メタデータ) (2023-05-22T12:58:06Z) - Explainability in Process Outcome Prediction: Guidelines to Obtain
Interpretable and Faithful Models [77.34726150561087]
本稿では、プロセス結果予測の分野における説明可能性モデルと説明可能性モデルの忠実性を通して、説明可能性を定義する。
本稿では,イベントログの仕様に基づいて適切なモデルを選択することのできる,X-MOPというガイドラインのセットを提案する。
論文 参考訳(メタデータ) (2022-03-30T05:59:50Z) - Interpreting Language Models with Contrastive Explanations [99.7035899290924]
言語モデルは、音声、数字、時制、意味論など、トークンを予測するための様々な特徴を考慮しなければならない。
既存の説明手法は、これらの特徴の証拠を1つの説明に分割するが、人間の理解には理解できない。
比較的な説明は、主要な文法現象の検証において、非対照的な説明よりも定量的に優れていることを示す。
論文 参考訳(メタデータ) (2022-02-21T18:32:24Z) - Leakage-Adjusted Simulatability: Can Models Generate Non-Trivial
Explanations of Their Behavior in Natural Language? [86.60613602337246]
我々はNL説明を評価するためのリーク調整シミュラビリティ(LAS)指標を提案する。
LASは、どのように説明が直接アウトプットをリークするかを制御しながら、オブザーバがモデルのアウトプットを予測するのに役立つかを計測する。
マルチエージェントゲームとしての説明文生成を行い、ラベルリークをペナライズしながら、シミュラビリティの説明を最適化する。
論文 参考訳(メタデータ) (2020-10-08T16:59:07Z) - Evaluating Explainable AI: Which Algorithmic Explanations Help Users
Predict Model Behavior? [97.77183117452235]
我々は、モデル解釈性に対するアルゴリズム的説明の影響を分離するために、人体テストを実施している。
方法の有効性の明確な証拠はごく少数にみえる。
以上の結果から,説明がシミュラビリティにどのように影響するかの信頼性と包括的評価が得られた。
論文 参考訳(メタデータ) (2020-05-04T20:35:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。