論文の概要: Do Models Explain Themselves? Counterfactual Simulatability of Natural
Language Explanations
- arxiv url: http://arxiv.org/abs/2307.08678v1
- Date: Mon, 17 Jul 2023 17:41:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 11:57:40.868445
- Title: Do Models Explain Themselves? Counterfactual Simulatability of Natural
Language Explanations
- Title(参考訳): モデルは自身を説明するか?
自然言語説明の非現実的シミュラビリティ
- Authors: Yanda Chen, Ruiqi Zhong, Narutatsu Ri, Chen Zhao, He He, Jacob
Steinhardt, Zhou Yu, Kathleen McKeown
- Abstract要約: 大規模言語モデル(LLM)は、人間の決定を説明するために人間を模倣するために訓練されている。
そこで本研究では,人間による多種多様なファクトファクトに対して,モデルの出力を正確に推定できるかどうかを検証した。
LLMの説明は精度が低く、精度は妥当性と相関しないことがわかった。
- 参考スコア(独自算出の注目度): 62.61495090463084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are trained to imitate humans to explain human
decisions. However, do LLMs explain themselves? Can they help humans build
mental models of how LLMs process different inputs? To answer these questions,
we propose to evaluate $\textbf{counterfactual simulatability}$ of natural
language explanations: whether an explanation can enable humans to precisely
infer the model's outputs on diverse counterfactuals of the explained input.
For example, if a model answers "yes" to the input question "Can eagles fly?"
with the explanation "all birds can fly", then humans would infer from the
explanation that it would also answer "yes" to the counterfactual input "Can
penguins fly?". If the explanation is precise, then the model's answer should
match humans' expectations.
We implemented two metrics based on counterfactual simulatability: precision
and generality. We generated diverse counterfactuals automatically using LLMs.
We then used these metrics to evaluate state-of-the-art LLMs (e.g., GPT-4) on
two tasks: multi-hop factual reasoning and reward modeling. We found that LLM's
explanations have low precision and that precision does not correlate with
plausibility. Therefore, naively optimizing human approvals (e.g., RLHF) may
not be a sufficient solution.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間の決定を説明するために人間を模倣するために訓練されている。
しかし、LLMは自己を説明するだろうか?
LLMがさまざまな入力を処理する方法のメンタルモデル構築を支援することができるだろうか?
これらの質問に答えるために、自然言語説明の$\textbf{counterfactual simulatability}$を評価することを提案する。
例えば、モデルが入力された質問 "Can eagles fly?" に対して "yes" と答えると、「すべての鳥は飛ぶことができる」という説明で、人間はそれが反現実的な「Can penguins fly?
説明が正確であれば、モデルの答えは人間の期待と一致すべきである。
反事実的同化可能性に基づく2つの指標(精度と一般化)を実装した。
LLMを使って多種多様なカウンターファクトを自動生成する。
次に、これらの指標を用いて、マルチホップ事実推論と報酬モデリングの2つのタスクにおいて、最先端のLCM(例えば、GPT-4)を評価する。
LLMの説明は精度が低く、精度は妥当性と相関しないことがわかった。
したがって、ヒトの承認(例えばRLHF)を自然に最適化することは十分ではない。
関連論文リスト
- P-FOLIO: Evaluating and Improving Logical Reasoning with Abundant Human-Written Reasoning Chains [97.25943550933829]
P-FOLIO(P-FOLIO)は、多種多様で複雑な推論連鎖からなる人称注釈付きデータセットである。
我々はP-FOLIOを用いて大規模言語モデル推論機能の評価と改善を行う。
論文 参考訳(メタデータ) (2024-10-11T19:22:57Z) - Explanation sensitivity to the randomness of large language models: the case of journalistic text classification [6.240875403446504]
本研究では,大規模言語モデルの学習におけるランダム要素の影響について,その予測可能性について検討する。
微調整のCamemBERTモデルと、関連性伝播に基づく説明手法を用いて、異なるランダムシードを用いたトレーニングは、類似の精度であるが可変的な説明を伴うモデルを生成する。
論文 参考訳(メタデータ) (2024-10-07T14:39:45Z) - Comparing zero-shot self-explanations with human rationales in multilingual text classification [5.32539007352208]
命令調整 LLM は計算や複雑な XAI 法の適用を必要としない自己説明を生成する。
入力論理の形で自己説明を評価することによって、この能力が良い説明をもたらすかどうかを解析する。
以上の結果から,自己説明はLRPよりも人間のアノテーションと密接に一致し,忠実度は同等であることがわかった。
論文 参考訳(メタデータ) (2024-10-04T10:14:12Z) - Towards Consistent Natural-Language Explanations via
Explanation-Consistency Finetuning [66.87754065127714]
大規模言語モデル (LLM) はしばしば説得力があり、流動的な説明を生成する。
それらはしばしば異なる入力に関する矛盾した説明を生成する。
本稿では,一貫した自然言語説明を生成するために,説明整合性微調整(EC-finetuning)を提案する。
論文 参考訳(メタデータ) (2024-01-25T07:04:30Z) - Towards a Mechanistic Interpretation of Multi-Step Reasoning
Capabilities of Language Models [107.07851578154242]
言語モデル(LM)は強力な多段階推論能力を持つ。
LMが事前学習コーパスから記憶された回答を不正に処理するか,多段階推論機構を用いてタスクを実行するかは明らかでない。
メカニスティックプローブは,ほとんどの例において,モデルの注意から推論ツリーの情報を検出することができることを示す。
論文 参考訳(メタデータ) (2023-10-23T01:47:29Z) - Can Large Language Models Explain Themselves? A Study of LLM-Generated
Self-Explanations [14.685170467182369]
ChatGPTのような大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて優れた性能を示している。
これらのモデルは、人間の会話に"ヘルプフル"な応答を生成するように調整されているため、応答とともに説明を生成できる。
論文 参考訳(メタデータ) (2023-10-17T12:34:32Z) - Learning to Scaffold: Optimizing Model Explanations for Teaching [74.25464914078826]
我々は3つの自然言語処理とコンピュータビジョンタスクのモデルを訓練する。
筆者らは,本フレームワークで抽出した説明文を学習した学生が,従来の手法よりもはるかに効果的に教師をシミュレートできることを発見した。
論文 参考訳(メタデータ) (2022-04-22T16:43:39Z) - Leakage-Adjusted Simulatability: Can Models Generate Non-Trivial
Explanations of Their Behavior in Natural Language? [86.60613602337246]
我々はNL説明を評価するためのリーク調整シミュラビリティ(LAS)指標を提案する。
LASは、どのように説明が直接アウトプットをリークするかを制御しながら、オブザーバがモデルのアウトプットを予測するのに役立つかを計測する。
マルチエージェントゲームとしての説明文生成を行い、ラベルリークをペナライズしながら、シミュラビリティの説明を最適化する。
論文 参考訳(メタデータ) (2020-10-08T16:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。