論文の概要: Can LLMs Explain Themselves Counterfactually?
- arxiv url: http://arxiv.org/abs/2502.18156v1
- Date: Tue, 25 Feb 2025 12:40:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:23:21.660783
- Title: Can LLMs Explain Themselves Counterfactually?
- Title(参考訳): LLMは非現実的にテーマを説明できるのか?
- Authors: Zahra Dehghanighobadi, Asja Fischer, Muhammad Bilal Zafar,
- Abstract要約: 説明はMLモデルの振る舞いに関する洞察を得るための重要なツールである。
我々は、特定のタイプの自己説明、自己生成反事実説明(SCE)について研究する。
- 参考スコア(独自算出の注目度): 16.569180690291773
- License:
- Abstract: Explanations are an important tool for gaining insights into the behavior of ML models, calibrating user trust and ensuring regulatory compliance. Past few years have seen a flurry of post-hoc methods for generating model explanations, many of which involve computing model gradients or solving specially designed optimization problems. However, owing to the remarkable reasoning abilities of Large Language Model (LLMs), self-explanation, that is, prompting the model to explain its outputs has recently emerged as a new paradigm. In this work, we study a specific type of self-explanations, self-generated counterfactual explanations (SCEs). We design tests for measuring the efficacy of LLMs in generating SCEs. Analysis over various LLM families, model sizes, temperature settings, and datasets reveals that LLMs sometimes struggle to generate SCEs. Even when they do, their prediction often does not agree with their own counterfactual reasoning.
- Abstract(参考訳): 説明は、MLモデルの振る舞いを把握し、ユーザの信頼を校正し、規制コンプライアンスを確保するための重要なツールである。
ここ数年、モデル説明を生成するためのポストホックな手法が急増しており、その多くが計算モデル勾配や特別に設計された最適化問題を解くことを含んでいる。
しかし、大規模言語モデル(LLM)の顕著な推論能力、すなわち自己説明により、その出力を説明するモデルが最近新しいパラダイムとして登場した。
本研究では,特定のタイプの自己説明,自己生成的反実的説明(SCE)について検討する。
SCE 生成における LLM の有効性を評価するための試験を設計した。
様々なLLMファミリー、モデルサイズ、温度設定、データセットの分析により、LLMが時にSCEを生成するのに苦労していることが分かる。
たとえそうであっても、彼らの予測は、しばしば彼ら自身の反事実的推論と一致しない。
関連論文リスト
- Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Data Science with LLMs and Interpretable Models [19.4969442162327]
大きな言語モデル(LLM)は解釈可能なモデルを扱うのに非常に適しています。
LLMはGAM(Generalized Additive Models)を記述、解釈、デバッグできることを示す。
論文 参考訳(メタデータ) (2024-02-22T12:04:15Z) - A Hypothesis-Driven Framework for the Analysis of Self-Rationalising
Models [0.8702432681310401]
我々はベイジアンネットワークを用いて、タスクの解決方法に関する仮説を実装している。
結果のモデルはGPT-3.5と強い類似性は示さない。
今後の作業において、LCM決定をよりよく近似するフレームワークの可能性だけでなく、これの意味についても論じる。
論文 参考訳(メタデータ) (2024-02-07T12:26:12Z) - Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z) - In-Context Explainers: Harnessing LLMs for Explaining Black Box Models [28.396104334980492]
大規模言語モデル(LLM)は、機械翻訳、常識推論、言語理解といった複雑なタスクにおいて、例外的な機能を示している。
このような多様なタスクにおけるLLMの適応性の主要な理由の1つは、インコンテキスト学習(ICL)能力である。
本稿では,LLMのICL機能を利用して,他の予測モデルによる予測を説明する新しい3つの手法,In-Context Explainersを提案する。
論文 参考訳(メタデータ) (2023-10-09T15:31:03Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning [70.48605869773814]
カタストロフィック・ナッシング(英: Catastrophic forgetting、CF)は、機械学習において、モデルが以前に学習した情報を忘れたときに発生する現象である。
本研究では,大規模言語モデルにおける連続的調律時の忘れ現象を実験的に評価する。
論文 参考訳(メタデータ) (2023-08-17T02:53:23Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。