論文の概要: Do LLM Self-Explanations Help Users Predict Model Behavior? Evaluating Counterfactual Simulatability with Pragmatic Perturbations
- arxiv url: http://arxiv.org/abs/2601.03775v1
- Date: Wed, 07 Jan 2026 10:13:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.467209
- Title: Do LLM Self-Explanations Help Users Predict Model Behavior? Evaluating Counterfactual Simulatability with Pragmatic Perturbations
- Title(参考訳): LLM自己説明はユーザーがモデル行動を予測するのに役立つか? 実用的摂動による対実的シミュラビリティの評価
- Authors: Pingjun Hong, Benjamin Roth,
- Abstract要約: 大規模言語モデル(LLM)は、言語化された自己説明を生成することができる。
我々は,人間とLLMの審査員が,偽のフォローアップ質問に対するモデルの回答をどの程度予測できるかを評価する。
- 参考スコア(独自算出の注目度): 1.8772057593980798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) can produce verbalized self-explanations, yet prior studies suggest that such rationales may not reliably reflect the model's true decision process. We ask whether these explanations nevertheless help users predict model behavior, operationalized as counterfactual simulatability. Using StrategyQA, we evaluate how well humans and LLM judges can predict a model's answers to counterfactual follow-up questions, with and without access to the model's chain-of-thought or post-hoc explanations. We compare LLM-generated counterfactuals with pragmatics-based perturbations as alternative ways to construct test cases for assessing the potential usefulness of explanations. Our results show that self-explanations consistently improve simulation accuracy for both LLM judges and humans, but the degree and stability of gains depend strongly on the perturbation strategy and judge strength. We also conduct a qualitative analysis of free-text justifications written by human users when predicting the model's behavior, which provides evidence that access to explanations helps humans form more accurate predictions on the perturbed questions.
- Abstract(参考訳): 大規模言語モデル(LLM)は、言語化された自己説明を生成できるが、先行研究は、そのような合理的性はモデルの真の決定過程を確実に反映していないことを示唆している。
これらの説明が,反ファクト的シミュラビリティとして機能するモデル行動の予測に有効かどうかを問う。
StrategyQAを用いて、人間とLLMの裁判官が、モデルのチェーン・オブ・シンクやポストホックな説明にアクセスせずに、偽のフォローアップ質問に対するモデルの回答をいかにうまく予測できるかを評価する。
本研究では, LLM 生成した反事実と実用性に基づく摂動を, 説明の潜在的有用性を評価するためのテストケース構築の代替手段として比較する。
以上の結果から,自己説明はLLM判事と人間双方のシミュレーション精度を常に向上させるが,利得の度合いと安定性は摂動戦略と判定強度に強く依存することがわかった。
また、モデルの振る舞いを予測する際に、人間が記述した自由文の正当性を定性的に分析し、説明へのアクセスは、人間が摂動した質問に対してより正確な予測を行うのに役立つことを示す。
関連論文リスト
- From latent factors to language: a user study on LLM-generated explanations for an inherently interpretable matrix-based recommender system [8.280161440212504]
大規模言語モデル(LLM)が数学的に解釈可能なレコメンデーションモデルから,効果的なユーザ向け説明を生成できるかどうかを検討する。
本研究は,5次元にわたる説明の質を評価する326人の被験者を対象に実施した。
分析の結果、全ての説明型は概ね好意的であり、戦略間の統計的差異は緩やかであることがわかった。
論文 参考訳(メタデータ) (2025-09-23T13:30:03Z) - XForecast: Evaluating Natural Language Explanations for Time Series Forecasting [72.57427992446698]
時系列予測は、特に正確な予測に依存するステークホルダーにとって、意思決定を支援する。
伝統的に説明可能なAI(XAI)メソッドは、機能や時間的重要性を基盤とするものであり、専門家の知識を必要とすることが多い。
時系列データにおける複雑な因果関係のため,予測NLEの評価は困難である。
論文 参考訳(メタデータ) (2024-10-18T05:16:39Z) - A Hypothesis-Driven Framework for the Analysis of Self-Rationalising
Models [0.8702432681310401]
我々はベイジアンネットワークを用いて、タスクの解決方法に関する仮説を実装している。
結果のモデルはGPT-3.5と強い類似性は示さない。
今後の作業において、LCM決定をよりよく近似するフレームワークの可能性だけでなく、これの意味についても論じる。
論文 参考訳(メタデータ) (2024-02-07T12:26:12Z) - Evaluating the Utility of Model Explanations for Model Development [54.23538543168767]
機械学習モデル構築の実践シナリオにおいて、説明が人間の意思決定を改善するかどうかを評価する。
驚いたことに、サリエンシマップが提供されたとき、タスクが大幅に改善されたという証拠は見つからなかった。
以上の結果から,サリエンシに基づく説明における誤解の可能性と有用性について注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2023-12-10T23:13:23Z) - Counterfactuals of Counterfactuals: a back-translation-inspired approach
to analyse counterfactual editors [3.4253416336476246]
我々は、反事実的、対照的な説明の分析に焦点をあてる。
本稿では,新しい逆翻訳に基づく評価手法を提案する。
本研究では, 予測モデルと説明モデルの両方の振る舞いについて, 反事実を反復的に説明者に与えることで, 価値ある洞察を得ることができることを示す。
論文 参考訳(メタデータ) (2023-05-26T16:04:28Z) - Explainability in Process Outcome Prediction: Guidelines to Obtain
Interpretable and Faithful Models [77.34726150561087]
本稿では、プロセス結果予測の分野における説明可能性モデルと説明可能性モデルの忠実性を通して、説明可能性を定義する。
本稿では,イベントログの仕様に基づいて適切なモデルを選択することのできる,X-MOPというガイドラインのセットを提案する。
論文 参考訳(メタデータ) (2022-03-30T05:59:50Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Leakage-Adjusted Simulatability: Can Models Generate Non-Trivial
Explanations of Their Behavior in Natural Language? [86.60613602337246]
我々はNL説明を評価するためのリーク調整シミュラビリティ(LAS)指標を提案する。
LASは、どのように説明が直接アウトプットをリークするかを制御しながら、オブザーバがモデルのアウトプットを予測するのに役立つかを計測する。
マルチエージェントゲームとしての説明文生成を行い、ラベルリークをペナライズしながら、シミュラビリティの説明を最適化する。
論文 参考訳(メタデータ) (2020-10-08T16:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。