論文の概要: Do Models Explain Themselves? Counterfactual Simulatability of Natural
Language Explanations
- arxiv url: http://arxiv.org/abs/2307.08678v1
- Date: Mon, 17 Jul 2023 17:41:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 11:57:40.868445
- Title: Do Models Explain Themselves? Counterfactual Simulatability of Natural
Language Explanations
- Title(参考訳): モデルは自身を説明するか?
自然言語説明の非現実的シミュラビリティ
- Authors: Yanda Chen, Ruiqi Zhong, Narutatsu Ri, Chen Zhao, He He, Jacob
Steinhardt, Zhou Yu, Kathleen McKeown
- Abstract要約: 大規模言語モデル(LLM)は、人間の決定を説明するために人間を模倣するために訓練されている。
そこで本研究では,人間による多種多様なファクトファクトに対して,モデルの出力を正確に推定できるかどうかを検証した。
LLMの説明は精度が低く、精度は妥当性と相関しないことがわかった。
- 参考スコア(独自算出の注目度): 62.61495090463084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are trained to imitate humans to explain human
decisions. However, do LLMs explain themselves? Can they help humans build
mental models of how LLMs process different inputs? To answer these questions,
we propose to evaluate $\textbf{counterfactual simulatability}$ of natural
language explanations: whether an explanation can enable humans to precisely
infer the model's outputs on diverse counterfactuals of the explained input.
For example, if a model answers "yes" to the input question "Can eagles fly?"
with the explanation "all birds can fly", then humans would infer from the
explanation that it would also answer "yes" to the counterfactual input "Can
penguins fly?". If the explanation is precise, then the model's answer should
match humans' expectations.
We implemented two metrics based on counterfactual simulatability: precision
and generality. We generated diverse counterfactuals automatically using LLMs.
We then used these metrics to evaluate state-of-the-art LLMs (e.g., GPT-4) on
two tasks: multi-hop factual reasoning and reward modeling. We found that LLM's
explanations have low precision and that precision does not correlate with
plausibility. Therefore, naively optimizing human approvals (e.g., RLHF) may
not be a sufficient solution.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間の決定を説明するために人間を模倣するために訓練されている。
しかし、LLMは自己を説明するだろうか?
LLMがさまざまな入力を処理する方法のメンタルモデル構築を支援することができるだろうか?
これらの質問に答えるために、自然言語説明の$\textbf{counterfactual simulatability}$を評価することを提案する。
例えば、モデルが入力された質問 "Can eagles fly?" に対して "yes" と答えると、「すべての鳥は飛ぶことができる」という説明で、人間はそれが反現実的な「Can penguins fly?
説明が正確であれば、モデルの答えは人間の期待と一致すべきである。
反事実的同化可能性に基づく2つの指標(精度と一般化)を実装した。
LLMを使って多種多様なカウンターファクトを自動生成する。
次に、これらの指標を用いて、マルチホップ事実推論と報酬モデリングの2つのタスクにおいて、最先端のLCM(例えば、GPT-4)を評価する。
LLMの説明は精度が低く、精度は妥当性と相関しないことがわかった。
したがって、ヒトの承認(例えばRLHF)を自然に最適化することは十分ではない。
関連論文リスト
- Large Language Models As Faithful Explainers [67.38301892818778]
大規模言語モデル(LLM)は近年,その豊富な内部知識と推論能力を活用することで,複雑なタスクに対処する技術に長けている。
我々は、LLMの自然言語形式で提供される説明の忠実性を改善するために、生成的説明フレームワークであるxLLMを導入する。
3つのNLUデータセットで行った実験により、xLLMは生成された説明の忠実性を大幅に改善できることが示された。
論文 参考訳(メタデータ) (2024-02-07T09:09:14Z) - Towards Consistent Natural-Language Explanations via
Explanation-Consistency Finetuning [66.87754065127714]
大規模言語モデル (LLM) はしばしば説得力があり、流動的な説明を生成する。
それらはしばしば異なる入力に関する矛盾した説明を生成する。
本稿では,一貫した自然言語説明を生成するために,説明整合性微調整(EC-finetuning)を提案する。
論文 参考訳(メタデータ) (2024-01-25T07:04:30Z) - SELF-EXPLAIN: Teaching Large Language Models to Reason Complex Questions
by Themselves [9.68886683868545]
本研究では,大規模言語モデル(LLM)が人為的な実演を伴わずに理性を教えることができるかどうかを考察する。
人間の記憶検索における「符号化特異性」にインスパイアされたLLMを用いて,SELF-EXPLAINを用いてCoTのサンプルを生成する。
自己説明を用いることで、LLMはより自信を持ち、より校正され、複雑な質問に答えるときにバイアスが少なくなる。
論文 参考訳(メタデータ) (2023-11-12T23:14:43Z) - Towards a Mechanistic Interpretation of Multi-Step Reasoning
Capabilities of Language Models [107.07851578154242]
言語モデル(LM)は強力な多段階推論能力を持つ。
LMが事前学習コーパスから記憶された回答を不正に処理するか,多段階推論機構を用いてタスクを実行するかは明らかでない。
メカニスティックプローブは,ほとんどの例において,モデルの注意から推論ツリーの情報を検出することができることを示す。
論文 参考訳(メタデータ) (2023-10-23T01:47:29Z) - Can Large Language Models Explain Themselves? A Study of LLM-Generated
Self-Explanations [14.685170467182369]
ChatGPTのような大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて優れた性能を示している。
これらのモデルは、人間の会話に"ヘルプフル"な応答を生成するように調整されているため、応答とともに説明を生成できる。
論文 参考訳(メタデータ) (2023-10-17T12:34:32Z) - LMExplainer: a Knowledge-Enhanced Explainer for Language Models [23.286843033345658]
GPT-4のような大規模言語モデル(LLM)は非常に強力であり、異なる種類の自然言語処理(NLP)タスクを処理できる。
言語モデル(LM)の動作の明確さと理解の欠如は、現実のシナリオで使用する上で、信頼できない、信頼できない、潜在的に危険なものにします。
本稿では,人間に理解可能な説明を提供する,知識を駆使したLMExplainerを提案する。
論文 参考訳(メタデータ) (2023-03-29T08:59:44Z) - Learning to Scaffold: Optimizing Model Explanations for Teaching [74.25464914078826]
我々は3つの自然言語処理とコンピュータビジョンタスクのモデルを訓練する。
筆者らは,本フレームワークで抽出した説明文を学習した学生が,従来の手法よりもはるかに効果的に教師をシミュレートできることを発見した。
論文 参考訳(メタデータ) (2022-04-22T16:43:39Z) - Leakage-Adjusted Simulatability: Can Models Generate Non-Trivial
Explanations of Their Behavior in Natural Language? [86.60613602337246]
我々はNL説明を評価するためのリーク調整シミュラビリティ(LAS)指標を提案する。
LASは、どのように説明が直接アウトプットをリークするかを制御しながら、オブザーバがモデルのアウトプットを予測するのに役立つかを計測する。
マルチエージェントゲームとしての説明文生成を行い、ラベルリークをペナライズしながら、シミュラビリティの説明を最適化する。
論文 参考訳(メタデータ) (2020-10-08T16:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。