論文の概要: Walk the Talk? Measuring the Faithfulness of Large Language Model Explanations
- arxiv url: http://arxiv.org/abs/2504.14150v1
- Date: Sat, 19 Apr 2025 02:51:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 04:41:51.116053
- Title: Walk the Talk? Measuring the Faithfulness of Large Language Model Explanations
- Title(参考訳): 会話の歩み方 : 大規模言語モデル説明の忠実度を測る
- Authors: Katie Matton, Robert Osazuwa Ness, John Guttag, Emre Kıcıman,
- Abstract要約: 大規模言語モデル(LLM)は、質問に対する答えにどのように到達したかという、もっともらしい説明を生成することができる。
これらの説明はモデルの「合理的な」プロセス、すなわち、不誠実であるということを誤解することができる。
LLM説明の忠実度を測定するための新しい手法を提案する。
- 参考スコア(独自算出の注目度): 0.8949668577519213
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are capable of generating plausible explanations of how they arrived at an answer to a question. However, these explanations can misrepresent the model's "reasoning" process, i.e., they can be unfaithful. This, in turn, can lead to over-trust and misuse. We introduce a new approach for measuring the faithfulness of LLM explanations. First, we provide a rigorous definition of faithfulness. Since LLM explanations mimic human explanations, they often reference high-level concepts in the input question that purportedly influenced the model. We define faithfulness in terms of the difference between the set of concepts that LLM explanations imply are influential and the set that truly are. Second, we present a novel method for estimating faithfulness that is based on: (1) using an auxiliary LLM to modify the values of concepts within model inputs to create realistic counterfactuals, and (2) using a Bayesian hierarchical model to quantify the causal effects of concepts at both the example- and dataset-level. Our experiments show that our method can be used to quantify and discover interpretable patterns of unfaithfulness. On a social bias task, we uncover cases where LLM explanations hide the influence of social bias. On a medical question answering task, we uncover cases where LLM explanations provide misleading claims about which pieces of evidence influenced the model's decisions.
- Abstract(参考訳): 大規模言語モデル(LLM)は、質問に対する答えにどのように到達したかという、もっともらしい説明を生成することができる。
しかし、これらの説明はモデルの「合理的な」プロセス、すなわち不誠実であるということを誤解することができる。
これは結果として、過剰な信頼と誤用につながる可能性がある。
LLM説明の忠実度を測定するための新しい手法を提案する。
まず、忠実さの厳密な定義を提供する。
LLMの説明は人間の説明を模倣しているため、入力問題における高レベルの概念をしばしば参照し、モデルに影響を与えている。
我々は LLM の説明が意味する概念の集合と真である集合との相違の観点から忠実性を定義する。
第2に,(1)モデル入力における概念の値を変更して現実的な偽物を生成するための補助的LCM,(2)ベイズ的階層モデルを用いて概念の因果的効果を実例とデータセットレベルで定量化する。
実験の結果,本手法は不信の解釈可能なパターンの定量化と発見に有効であることがわかった。
社会的偏見課題では, LLMの説明が社会的偏見の影響を隠蔽する事例を明らかにする。
医療質問応答タスクでは、LCMの説明が、どの証拠がモデルの判断に影響を及ぼすかという誤解を招くような主張を提示するケースを明らかにする。
関連論文リスト
- New Faithfulness-Centric Interpretability Paradigms for Natural Language Processing [4.813533076849816]
この論文は、「複雑な汎用ニューラルNLPモデルに対する忠実な説明を提供するにはどうすればいいのか?
探索された2つの新しいパラダイムは、忠実度測定可能なモデル(FMM)と自己説明である。
FMMは、忠実度の観点から理論的に最適に近い説明を得る。
論文 参考訳(メタデータ) (2024-11-27T02:17:34Z) - Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
本研究では,大言語モデル(LLM)の因果推論能力について,物語から因果関係を推定する代表的な問題から検討する。
最新の言語モデルでさえ、物語の提示とパラメトリック知識の両方において、信頼できないショートカットに依存していることがわかった。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z) - Towards Faithful Natural Language Explanations: A Study Using Activation Patching in Large Language Models [29.67884478799914]
大きな言語モデル(LLM)は、その答えを正当化するために説得力のある自然言語説明(NLE)を生成することができる。
近年,NLEの忠実度を測定するための様々な手法が提案されている。
これらのアプローチは、確立された忠実性の定義に従って包括的でも正しくも設計されていない、と我々は主張する。
論文 参考訳(メタデータ) (2024-10-18T03:45:42Z) - Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。
本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。
本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文 参考訳(メタデータ) (2024-07-20T11:19:58Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - A Hypothesis-Driven Framework for the Analysis of Self-Rationalising
Models [0.8702432681310401]
我々はベイジアンネットワークを用いて、タスクの解決方法に関する仮説を実装している。
結果のモデルはGPT-3.5と強い類似性は示さない。
今後の作業において、LCM決定をよりよく近似するフレームワークの可能性だけでなく、これの意味についても論じる。
論文 参考訳(メタデータ) (2024-02-07T12:26:12Z) - FaithLM: Towards Faithful Explanations for Large Language Models [67.29893340289779]
大きな言語モデル(LLM)は、内部知識と推論能力を活用することで複雑なタスクに対処するのに熟練している。
これらのモデルのブラックボックスの性質は、意思決定プロセスを説明するタスクを複雑にしている。
自然言語 (NL) による LLM の決定を説明するために FaithLM を紹介した。
論文 参考訳(メタデータ) (2024-02-07T09:09:14Z) - Are self-explanations from Large Language Models faithful? [35.40666730867487]
大規模言語モデル(LLM)は多くのタスクを抽出し、その推論、いわゆる自己説明を説明する。
自己説明がモデルの振舞いを本当に反映しているかを測定することが重要です。
信頼度を測定するために自己整合性チェックを採用することを提案する。
論文 参考訳(メタデータ) (2024-01-15T19:39:15Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z) - Language Models with Rationality [57.37201135072838]
大規模言語モデル(LLM)は質問応答(QA)に熟練している
答えが潜んでいる「信条」からどのように従うか(あるいはたとえも)は必ずしも明確ではない。
論文 参考訳(メタデータ) (2023-05-23T17:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。