Fugu-MT 論文翻訳(概要): Are self-explanations from Large Language Models faithful?

論文の概要: Are self-explanations from Large Language Models faithful?

arxiv url: http://arxiv.org/abs/2401.07927v3
Date: Thu, 15 Feb 2024 17:19:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-16 18:39:44.816549
Title: Are self-explanations from Large Language Models faithful?
Title（参考訳）: 大規模言語モデルの自己説明は忠実か?
Authors: Andreas Madsen, Sarath Chandar, Siva Reddy
Abstract要約: 大規模言語モデル(LLM)は多くのタスクを抽出し、その推論、いわゆる自己説明を説明する。自己説明がモデルの振舞いを本当に反映しているかを測定することが重要です。信頼度を測定するために自己整合性チェックを採用することを提案する。
参考スコア（独自算出の注目度）: 38.67924043709067
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Instruction-tuned Large Language Models (LLMs) excel at many tasks and will even explain their reasoning, so-called self-explanations. However, convincing and wrong self-explanations can lead to unsupported confidence in LLMs, thus increasing risk. Therefore, it's important to measure if self-explanations truly reflect the model's behavior. Such a measure is called interpretability-faithfulness and is challenging to perform since the ground truth is inaccessible, and many LLMs only have an inference API. To address this, we propose employing self-consistency checks to measure faithfulness. For example, if an LLM says a set of words is important for making a prediction, then it should not be able to make its prediction without these words. While self-consistency checks are a common approach to faithfulness, they have not previously been successfully applied to LLM self-explanations for counterfactual, importance measure, and redaction explanations. Our results demonstrate that faithfulness is explanation, model, and task-dependent, showing self-explanations should not be trusted in general. For example, with sentiment classification, counterfactuals are more faithful for Llama2, importance measures for Mistral, and redaction for Falcon 40B.
Abstract（参考訳）: LLM(Instruction-tuned Large Language Models)は、多くのタスクを抽出し、その推論、いわゆる自己説明を説明する。しかし、説得力と誤った自己説明はllmに対する信頼を防ぎ、リスクを増大させる可能性がある。したがって、自己説明がモデルの振る舞いを本当に反映しているかを測定することが重要です。このような測度は解釈可能性(interpretability-faithfulness)と呼ばれ、基底真理が到達不能であるため実行が困難であり、多くのLCMは推論APIしか持たない。そこで本稿では,信頼度を測定するための自己整合性チェックを提案する。例えば、llmが単語の集合が予測を行うのに重要であると言うなら、これらの単語なしでその単語を予測することはできないはずである。自己整合性チェックは、忠実性に対する一般的なアプローチであるが、以前は、反現実性、重要度、リアクションの説明のためのLSM自己説明にうまく適用されなかった。本研究は,自己説明が一般に信頼されてはならないことを示す,説明,モデル,タスク依存であることを示す。例えば、感情分類では、反事実はLlama2、Mistralの重要度、Falcon 40Bの再作用に忠実である。

関連論文リスト

When Do LLMs Admit Their Mistakes? Understanding the Role of Model Belief in Retraction [24.49830646625232]
我々は、事前生成された回答における認識誤りの挙動を「取り消し」として定義する。我々は、リトラクションがモデルの内部信念の指標と密接な関係があることを実証する。実験により、内的信念はモデルリトラクションに因果的に影響を及ぼすことが示された。
論文参考訳（メタデータ） (2025-05-22T03:16:00Z)
Walk the Talk? Measuring the Faithfulness of Large Language Model Explanations [0.8949668577519213]
大規模言語モデル(LLM)は、質問に対する答えにどのように到達したかという、もっともらしい説明を生成することができる。これらの説明はモデルの「合理的な」プロセス、すなわち、不誠実であるということを誤解することができる。 LLM説明の忠実度を測定するための新しい手法を提案する。
論文参考訳（メタデータ） (2025-04-19T02:51:20Z)
Aligning Large Language Models for Faithful Integrity Against Opposing Argument [71.33552795870544]
大規模言語モデル(LLM)は複雑な推論タスクにおいて印象的な機能を示している。原文が正しい場合でも、会話中に不誠実な議論によって容易に誤解される。本稿では,信頼度と信頼度を両立させる新しい枠組みを提案する。
論文参考訳（メタデータ） (2025-01-02T16:38:21Z)
Towards Faithful Natural Language Explanations: A Study Using Activation Patching in Large Language Models [29.67884478799914]
大きな言語モデル(LLM)は、その答えを正当化するために説得力のある自然言語説明(NLE)を生成することができる。近年,NLEの忠実度を測定するための様々な手法が提案されている。これらのアプローチは、確立された忠実性の定義に従って包括的でも正しくも設計されていない、と我々は主張する。
論文参考訳（メタデータ） (2024-10-18T03:45:42Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
SaySelf: Teaching LLMs to Express Confidence with Self-Reflective Rationales [29.33581578047835]
SaySelfは、大規模言語モデルに、より正確なきめ細かな信頼推定を表現するためのトレーニングフレームワークである。さらに、SaySelf は LLM に対して、パラメトリック知識のギャップを明確に識別する自己反射的合理性を生成するよう指示する。生成した自己反射的理性は合理的であり、キャリブレーションにさらに貢献できることを示す。
論文参考訳（メタデータ） (2024-05-31T16:21:16Z)
Can Large Language Models Faithfully Express Their Intrinsic Uncertainty in Words? [21.814007454504978]
大規模言語モデル(LLM)は,自然言語における本質的な不確実性を表現できることが示唆された。我々は、モデル固有のアサーションに対する信頼のギャップと、それらが伝達される決定性に基づいて、忠実な応答の不確実性を定式化する。
論文参考訳（メタデータ） (2024-05-27T07:56:23Z)
"I'm Not Sure, But...": Examining the Impact of Large Language Models' Uncertainty Expression on User Reliance and Trust [51.542856739181474]
不確実性の自然言語表現の違いが、参加者の信頼、信頼、全体的なタスクパフォーマンスにどのように影響するかを示す。その結果, 一人称表情は, 参加者のシステムに対する信頼度を低下させ, 参加者の正確性を高めつつ, システムの回答に同調する傾向にあることがわかった。以上の結果から,不確実性の自然言語表現の使用は,LLMの過度な依存を軽減するための効果的なアプローチである可能性が示唆された。
論文参考訳（メタデータ） (2024-05-01T16:43:55Z)
Faithfulness vs. Plausibility: On the (Un)Reliability of Explanations from Large Language Models [26.11408084129897]
大規模言語モデル(LLM)は、いくつかの自然言語処理(NLP)アプリケーションのための強力なツールとしてデプロイされる。最近の研究は、現代のLSMが自己説明(Ses)を生成できることを示している。 LLMが生成するSEの忠実度と妥当性の両立を論じる。
論文参考訳（メタデータ） (2024-02-07T06:32:50Z)
Evaluating Gender Bias in Large Language Models via Chain-of-Thought Prompting [87.30837365008931]
CoT(Chain-of-Thought)プロンプトを備えた大規模言語モデル(LLM)は、計算不能なタスクでも正確なインクリメンタルな予測を行うことができる。本研究では,LLMのステップバイステップ予測が性差に及ぼす影響について検討した。
論文参考訳（メタデータ） (2024-01-28T06:50:10Z)
On Measuring Faithfulness or Self-consistency of Natural Language Explanations [22.37545779269458]
大規模言語モデル(LLM)は、ポストホックやチェーン・オブ・ソート(Chain-of-Thought)の説明を通じて予測を説明することができる。最近の研究は、これらの説明の忠実さを判断するための試験を設計している。これらのテストはモデルの内部動作に対する忠実さを測るものではなく、むしろ出力レベルでの自己整合性を測るものだ、と私たちは主張する。
論文参考訳（メタデータ） (2023-11-13T16:53:51Z)
Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文参考訳（メタデータ） (2023-05-24T06:41:09Z)
Language Models with Rationality [57.37201135072838]
大規模言語モデル(LLM)は質問応答(QA)に熟練している答えが潜んでいる「信条」からどのように従うか(あるいはたとえも)は必ずしも明確ではない。
論文参考訳（メタデータ） (2023-05-23T17:04:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。