Fugu-MT 論文翻訳(概要): Do Models Explain Themselves? Counterfactual Simulatability of Natural Language Explanations

論文の概要: Do Models Explain Themselves? Counterfactual Simulatability of Natural Language Explanations

arxiv url: http://arxiv.org/abs/2307.08678v1
Date: Mon, 17 Jul 2023 17:41:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-18 11:57:40.868445
Title: Do Models Explain Themselves? Counterfactual Simulatability of Natural Language Explanations
Title（参考訳）: モデルは自身を説明するか? 自然言語説明の非現実的シミュラビリティ
Authors: Yanda Chen, Ruiqi Zhong, Narutatsu Ri, Chen Zhao, He He, Jacob Steinhardt, Zhou Yu, Kathleen McKeown
Abstract要約: 大規模言語モデル(LLM)は、人間の決定を説明するために人間を模倣するために訓練されている。そこで本研究では,人間による多種多様なファクトファクトに対して,モデルの出力を正確に推定できるかどうかを検証した。 LLMの説明は精度が低く、精度は妥当性と相関しないことがわかった。
参考スコア（独自算出の注目度）: 62.61495090463084
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) are trained to imitate humans to explain human decisions. However, do LLMs explain themselves? Can they help humans build mental models of how LLMs process different inputs? To answer these questions, we propose to evaluate $\textbf{counterfactual simulatability}$ of natural language explanations: whether an explanation can enable humans to precisely infer the model's outputs on diverse counterfactuals of the explained input. For example, if a model answers "yes" to the input question "Can eagles fly?" with the explanation "all birds can fly", then humans would infer from the explanation that it would also answer "yes" to the counterfactual input "Can penguins fly?". If the explanation is precise, then the model's answer should match humans' expectations. We implemented two metrics based on counterfactual simulatability: precision and generality. We generated diverse counterfactuals automatically using LLMs. We then used these metrics to evaluate state-of-the-art LLMs (e.g., GPT-4) on two tasks: multi-hop factual reasoning and reward modeling. We found that LLM's explanations have low precision and that precision does not correlate with plausibility. Therefore, naively optimizing human approvals (e.g., RLHF) may not be a sufficient solution.
Abstract（参考訳）: 大規模言語モデル(LLM)は、人間の決定を説明するために人間を模倣するために訓練されている。しかし、LLMは自己を説明するだろうか? LLMがさまざまな入力を処理する方法のメンタルモデル構築を支援することができるだろうか? これらの質問に答えるために、自然言語説明の$\textbf{counterfactual simulatability}$を評価することを提案する。例えば、モデルが入力された質問 "Can eagles fly?" に対して "yes" と答えると、「すべての鳥は飛ぶことができる」という説明で、人間はそれが反現実的な「Can penguins fly? 説明が正確であれば、モデルの答えは人間の期待と一致すべきである。反事実的同化可能性に基づく2つの指標(精度と一般化)を実装した。 LLMを使って多種多様なカウンターファクトを自動生成する。次に、これらの指標を用いて、マルチホップ事実推論と報酬モデリングの2つのタスクにおいて、最先端のLCM(例えば、GPT-4)を評価する。 LLMの説明は精度が低く、精度は妥当性と相関しないことがわかった。したがって、ヒトの承認(例えばRLHF)を自然に最適化することは十分ではない。

関連論文リスト

Walk the Talk? Measuring the Faithfulness of Large Language Model Explanations [0.8949668577519213]
大規模言語モデル(LLM)は、質問に対する答えにどのように到達したかという、もっともらしい説明を生成することができる。これらの説明はモデルの「合理的な」プロセス、すなわち、不誠実であるということを誤解することができる。 LLM説明の忠実度を測定するための新しい手法を提案する。
論文参考訳（メタデータ） (2025-04-19T02:51:20Z)
Do Large Language Models Exhibit Spontaneous Rational Deception? [0.913127392774573]
大規模言語モデル (LLM) は、そのように促されるときの判断に有効である。しかし、どんな条件で自然に騙されるのか? 本研究は, LLMが生み出す自発誤を, 予め登録した実験プロトコルで評価する。
論文参考訳（メタデータ） (2025-03-31T23:10:56Z)
I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [79.01538178959726]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。本稿では,潜在離散変数として表される人間の解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文参考訳（メタデータ） (2025-03-12T01:21:17Z)
P-FOLIO: Evaluating and Improving Logical Reasoning with Abundant Human-Written Reasoning Chains [97.25943550933829]
P-FOLIO(P-FOLIO)は、多種多様で複雑な推論連鎖からなる人称注釈付きデータセットである。我々はP-FOLIOを用いて大規模言語モデル推論機能の評価と改善を行う。
論文参考訳（メタデータ） (2024-10-11T19:22:57Z)
Explanation sensitivity to the randomness of large language models: the case of journalistic text classification [6.240875403446504]
本研究では,大規模言語モデルの学習におけるランダム要素の影響について,その予測可能性について検討する。微調整のCamemBERTモデルと、関連性伝播に基づく説明手法を用いて、異なるランダムシードを用いたトレーニングは、類似の精度であるが可変的な説明を伴うモデルを生成する。
論文参考訳（メタデータ） (2024-10-07T14:39:45Z)
Comparing zero-shot self-explanations with human rationales in multilingual text classification [5.32539007352208]
命令調整 LLM は計算や複雑な XAI 法の適用を必要としない自己説明を生成する。入力論理の形で自己説明を評価することによって、この能力が良い説明をもたらすかどうかを解析する。以上の結果から,自己説明はLRPよりも人間のアノテーションと密接に一致し,忠実度は同等であることがわかった。
論文参考訳（メタデータ） (2024-10-04T10:14:12Z)
Towards Consistent Natural-Language Explanations via Explanation-Consistency Finetuning [66.87754065127714]
大規模言語モデル (LLM) はしばしば説得力があり、流動的な説明を生成する。それらはしばしば異なる入力に関する矛盾した説明を生成する。本稿では,一貫した自然言語説明を生成するために,説明整合性微調整(EC-finetuning)を提案する。
論文参考訳（メタデータ） (2024-01-25T07:04:30Z)
Towards a Mechanistic Interpretation of Multi-Step Reasoning Capabilities of Language Models [107.07851578154242]
言語モデル(LM)は強力な多段階推論能力を持つ。 LMが事前学習コーパスから記憶された回答を不正に処理するか,多段階推論機構を用いてタスクを実行するかは明らかでない。メカニスティックプローブは,ほとんどの例において,モデルの注意から推論ツリーの情報を検出することができることを示す。
論文参考訳（メタデータ） (2023-10-23T01:47:29Z)
Can Large Language Models Explain Themselves? A Study of LLM-Generated Self-Explanations [14.685170467182369]
ChatGPTのような大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて優れた性能を示している。これらのモデルは、人間の会話に"ヘルプフル"な応答を生成するように調整されているため、応答とともに説明を生成できる。
論文参考訳（メタデータ） (2023-10-17T12:34:32Z)
Learning to Scaffold: Optimizing Model Explanations for Teaching [74.25464914078826]
我々は3つの自然言語処理とコンピュータビジョンタスクのモデルを訓練する。筆者らは,本フレームワークで抽出した説明文を学習した学生が,従来の手法よりもはるかに効果的に教師をシミュレートできることを発見した。
論文参考訳（メタデータ） (2022-04-22T16:43:39Z)
Leakage-Adjusted Simulatability: Can Models Generate Non-Trivial Explanations of Their Behavior in Natural Language? [86.60613602337246]
我々はNL説明を評価するためのリーク調整シミュラビリティ(LAS)指標を提案する。 LASは、どのように説明が直接アウトプットをリークするかを制御しながら、オブザーバがモデルのアウトプットを予測するのに役立つかを計測する。マルチエージェントゲームとしての説明文生成を行い、ラベルリークをペナライズしながら、シミュラビリティの説明を最適化する。
論文参考訳（メタデータ） (2020-10-08T16:59:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。