論文の概要: LLMs Don't Know Their Own Decision Boundaries: The Unreliability of Self-Generated Counterfactual Explanations
- arxiv url: http://arxiv.org/abs/2509.09396v1
- Date: Thu, 11 Sep 2025 12:25:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.379098
- Title: LLMs Don't Know Their Own Decision Boundaries: The Unreliability of Self-Generated Counterfactual Explanations
- Title(参考訳): LLMは自己決定境界を知らない:自己生成型対実説明の不確実性
- Authors: Harry Mayne, Ryan Othniel Kearns, Yushi Yang, Andrew M. Bean, Eoin Delaney, Chris Russell, Adam Mahdi,
- Abstract要約: 人間と効果的に協力するためには、言語モデルは自然言語でその決定を説明できなければならない。
我々は、特定の種類の自己生成的反実的説明(SCE)について研究する。
モデルが有効なSCEを生成でき、意図した結果が得られ、最小限に抑えられ、必要以上に入力を変更することができるかどうかを評価する。
- 参考スコア(独自算出の注目度): 8.734404327315291
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To collaborate effectively with humans, language models must be able to explain their decisions in natural language. We study a specific type of self-explanation: self-generated counterfactual explanations (SCEs), where a model explains its prediction by modifying the input such that it would have predicted a different outcome. We evaluate whether LLMs can produce SCEs that are valid, achieving the intended outcome, and minimal, modifying the input no more than necessary. When asked to generate counterfactuals, we find that LLMs typically produce SCEs that are valid, but far from minimal, offering little insight into their decision-making behaviour. Worryingly, when asked to generate minimal counterfactuals, LLMs typically make excessively small edits that fail to change predictions. The observed validity-minimality trade-off is consistent across several LLMs, datasets, and evaluation settings. Our findings suggest that SCEs are, at best, an ineffective explainability tool and, at worst, can provide misleading insights into model behaviour. Proposals to deploy LLMs in high-stakes settings must consider the impact of unreliable self-explanations on downstream decision-making. Our code is available at https://github.com/HarryMayne/SCEs.
- Abstract(参考訳): 人間と効果的に協力するためには、言語モデルは自然言語でその決定を説明できなければならない。
自己生成の反事実的説明(SCE)では、モデルが入力を変更して、異なる結果を予測することによって予測を説明する。
LLMが有効なSCEを生成でき、意図した結果が得られ、最小限に抑えられ、必要以上に入力を変更することができるかどうかを評価する。
反ファクトアルを生成するように頼まれると、LSMは一般的に有効だが最小限ではないSCEを生成し、意思決定の振る舞いについてほとんど洞察を与えていないことが分かります。
残念なことに、最小限の反事実を生成するように要求されると、LLMは通常過度に小さな編集を行い、予測を変更できない。
観測された妥当性最小限のトレードオフは、複数のLCM、データセット、評価設定で一致している。
以上の結果から、SCEは少なくとも、非効率な説明可能性ツールであり、最悪の場合、モデル行動に関する誤解を招く洞察を与える可能性があることが示唆された。
LLMを高精細な環境で展開する提案は、下流の意思決定における信頼性の低い自己説明の影響を考慮する必要がある。
私たちのコードはhttps://github.com/HarryMayne/SCEsで利用可能です。
関連論文リスト
- Large Language Model Hacking: Quantifying the Hidden Risks of Using LLMs for Text Annotation [66.84286617519258]
大規模言語モデル(LLM)は、労働集約的なタスクの自動化を可能にすることによって、社会科学の研究を急速に変革している。
LLMの出力は、研究者による実装選択によって大きく異なる。
このようなバリエーションは、下流の分析に伝播する系統的なバイアスやランダムなエラーを導入し、タイプI、タイプII、タイプS、タイプMのエラーを引き起こす。
論文 参考訳(メタデータ) (2025-09-10T17:58:53Z) - CANDY: Benchmarking LLMs' Limitations and Assistive Potential in Chinese Misinformation Fact-Checking [16.10780837612994]
CANDYは,中国語の誤情報の事実チェックにおいて,大規模言語モデル(LLM)の機能と限界を評価するために設計されたベンチマークである。
分析の結果,現在のLCMでは,チェーン・オブ・シークレットの推論や数発のプロンプトによって強化された場合でも,正確な事実チェックの結論が得られないことがわかった。
LLMは事実チェックには信頼性が低いが,本研究の結果から,シナリオにおける補助ツールとして展開する際の人的パフォーマンス向上の可能性が示唆された。
論文 参考訳(メタデータ) (2025-09-04T07:33:44Z) - Towards Large Language Models with Self-Consistent Natural Language Explanations [11.085839471231552]
大きな言語モデル(LLM)は、解釈容易なパスを提供するようだ。
しかし、研究によると、これらのポストホックな説明は真の決定過程を誤って表現していることが多い。
論文 参考訳(メタデータ) (2025-06-09T08:06:33Z) - A Course Correction in Steerability Evaluation: Revealing Miscalibration and Side Effects in LLMs [14.334903198382287]
大規模言語モデルが幅広いユーザ目標に沿ったアウトプットを生成できるかどうかは不明だ。
プロンプトエンジニアリングのような操縦性を改善するための介入は、様々な効果がある。
強力なLCMでさえ操舵性に苦しむが、既存のアライメント戦略は不十分である。
論文 参考訳(メタデータ) (2025-05-27T21:29:52Z) - Can LLMs Explain Themselves Counterfactually? [16.569180690291773]
説明はMLモデルの振る舞いに関する洞察を得るための重要なツールである。
我々は、特定のタイプの自己説明、自己生成反事実説明(SCE)について研究する。
論文 参考訳(メタデータ) (2025-02-25T12:40:41Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。