Fugu-MT 論文翻訳(概要): Can Large Language Models Explain Themselves?

論文の概要: Can Large Language Models Explain Themselves?

arxiv url: http://arxiv.org/abs/2401.07927v1
Date: Mon, 15 Jan 2024 19:39:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-17 15:58:38.103742
Title: Can Large Language Models Explain Themselves?
Title（参考訳）: 大規模言語モデルに自己説明は可能か?
Authors: Andreas Madsen, Sarath Chandar, Siva Reddy
Abstract要約: 自己整合性チェックを,反事実,重要度,リアクションの3種類の自己説明に適用する。我々の研究は、信頼度はタスク依存とモデル依存の両方であることを示した。例えば、感情分類では、反ファクト的説明は、Llama2、Mistralの重要度、Falcon 40Bのリアクションなど、より忠実である。
参考スコア（独自算出の注目度）: 38.67924043709067
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Instruction-tuned large language models (LLMs) excel at many tasks, and will even provide explanations for their behavior. Since these models are directly accessible to the public, there is a risk that convincing and wrong explanations can lead to unsupported confidence in LLMs. Therefore, interpretability-faithfulness of self-explanations is an important consideration for AI Safety. Assessing the interpretability-faithfulness of these explanations, termed self-explanations, is challenging as the models are too complex for humans to annotate what is a correct explanation. To address this, we propose employing self-consistency checks as a measure of faithfulness. For example, if an LLM says a set of words is important for making a prediction, then it should not be able to make the same prediction without these words. While self-consistency checks are a common approach to faithfulness, they have not previously been applied to LLM's self-explanations. We apply self-consistency checks to three types of self-explanations: counterfactuals, importance measures, and redactions. Our work demonstrate that faithfulness is both task and model dependent, e.g., for sentiment classification, counterfactual explanations are more faithful for Llama2, importance measures for Mistral, and redaction for Falcon 40B. Finally, our findings are robust to prompt-variations.
Abstract（参考訳）: インストラクションチューニングされた大型言語モデル(LLM)は多くのタスクで優れており、その振る舞いの説明も提供する。これらのモデルは一般に直接アクセス可能であるため、説得力や誤った説明がLSMへの信頼を損なうリスクがある。したがって、自己説明の解釈可能性-信条はAI安全にとって重要な考慮事項である。自己説明と呼ばれるこれらの説明の解釈可能性-忠実さを評価することは、モデルが複雑すぎて人間が正しい説明を注釈付けできないため、難しい。そこで我々は,信頼度尺度として自己整合性チェックを採用することを提案する。例えば、llmが単語の集合が予測を行うのに重要であると言うなら、これらの単語なしで同じ予測を行うことはできない。自己整合性チェックは忠実性に対する一般的なアプローチであるが、LLMの自己説明には適用されていない。自己整合性チェックを,反事実,重要度,リアクションの3種類の自己説明に適用する。我々の研究は、信頼度はタスク依存とモデル依存の両方であることを示した。例えば、感情分類では、反ファクト的説明は、Llama2、Mistralの重要度、Falcon 40Bのリアクションなど、より忠実である。最後に,本症例は即時変動に対して堅牢である。

関連論文リスト

When Do LLMs Admit Their Mistakes? Understanding the Role of Model Belief in Retraction [24.49830646625232]
我々は、事前生成された回答における認識誤りの挙動を「取り消し」として定義する。我々は、リトラクションがモデルの内部信念の指標と密接な関係があることを実証する。実験により、内的信念はモデルリトラクションに因果的に影響を及ぼすことが示された。
論文参考訳（メタデータ） (2025-05-22T03:16:00Z)
Walk the Talk? Measuring the Faithfulness of Large Language Model Explanations [0.8949668577519213]
大規模言語モデル(LLM)は、質問に対する答えにどのように到達したかという、もっともらしい説明を生成することができる。これらの説明はモデルの「合理的な」プロセス、すなわち、不誠実であるということを誤解することができる。 LLM説明の忠実度を測定するための新しい手法を提案する。
論文参考訳（メタデータ） (2025-04-19T02:51:20Z)
Aligning Large Language Models for Faithful Integrity Against Opposing Argument [71.33552795870544]
大規模言語モデル(LLM)は複雑な推論タスクにおいて印象的な機能を示している。原文が正しい場合でも、会話中に不誠実な議論によって容易に誤解される。本稿では,信頼度と信頼度を両立させる新しい枠組みを提案する。
論文参考訳（メタデータ） (2025-01-02T16:38:21Z)
Towards Faithful Natural Language Explanations: A Study Using Activation Patching in Large Language Models [29.67884478799914]
大きな言語モデル(LLM)は、その答えを正当化するために説得力のある自然言語説明(NLE)を生成することができる。近年,NLEの忠実度を測定するための様々な手法が提案されている。これらのアプローチは、確立された忠実性の定義に従って包括的でも正しくも設計されていない、と我々は主張する。
論文参考訳（メタデータ） (2024-10-18T03:45:42Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
SaySelf: Teaching LLMs to Express Confidence with Self-Reflective Rationales [29.33581578047835]
SaySelfは、大規模言語モデルに、より正確なきめ細かな信頼推定を表現するためのトレーニングフレームワークである。さらに、SaySelf は LLM に対して、パラメトリック知識のギャップを明確に識別する自己反射的合理性を生成するよう指示する。生成した自己反射的理性は合理的であり、キャリブレーションにさらに貢献できることを示す。
論文参考訳（メタデータ） (2024-05-31T16:21:16Z)
Can Large Language Models Faithfully Express Their Intrinsic Uncertainty in Words? [21.814007454504978]
大規模言語モデル(LLM)は,自然言語における本質的な不確実性を表現できることが示唆された。我々は、モデル固有のアサーションに対する信頼のギャップと、それらが伝達される決定性に基づいて、忠実な応答の不確実性を定式化する。
論文参考訳（メタデータ） (2024-05-27T07:56:23Z)
"I'm Not Sure, But...": Examining the Impact of Large Language Models' Uncertainty Expression on User Reliance and Trust [51.542856739181474]
不確実性の自然言語表現の違いが、参加者の信頼、信頼、全体的なタスクパフォーマンスにどのように影響するかを示す。その結果, 一人称表情は, 参加者のシステムに対する信頼度を低下させ, 参加者の正確性を高めつつ, システムの回答に同調する傾向にあることがわかった。以上の結果から,不確実性の自然言語表現の使用は,LLMの過度な依存を軽減するための効果的なアプローチである可能性が示唆された。
論文参考訳（メタデータ） (2024-05-01T16:43:55Z)
FaithLM: Towards Faithful Explanations for Large Language Models [60.45183469474916]
大規模言語モデルの忠実度を評価し改善するモデルに依存しないフレームワークであるFaithLMを紹介した。 FaithLMは一貫して忠実度を高め、強い自己説明ベースラインよりも人間の合理性に整合した説明を生成する。
論文参考訳（メタデータ） (2024-02-07T09:09:14Z)
Faithfulness vs. Plausibility: On the (Un)Reliability of Explanations from Large Language Models [26.11408084129897]
大規模言語モデル(LLM)は、いくつかの自然言語処理(NLP)アプリケーションのための強力なツールとしてデプロイされる。最近の研究は、現代のLSMが自己説明(Ses)を生成できることを示している。 LLMが生成するSEの忠実度と妥当性の両立を論じる。
論文参考訳（メタデータ） (2024-02-07T06:32:50Z)
Evaluating Gender Bias in Large Language Models via Chain-of-Thought Prompting [87.30837365008931]
CoT(Chain-of-Thought)プロンプトを備えた大規模言語モデル(LLM)は、計算不能なタスクでも正確なインクリメンタルな予測を行うことができる。本研究では,LLMのステップバイステップ予測が性差に及ぼす影響について検討した。
論文参考訳（メタデータ） (2024-01-28T06:50:10Z)
On Measuring Faithfulness or Self-consistency of Natural Language Explanations [22.37545779269458]
大規模言語モデル(LLM)は、ポストホックやチェーン・オブ・ソート(Chain-of-Thought)の説明を通じて予測を説明することができる。最近の研究は、これらの説明の忠実さを判断するための試験を設計している。これらのテストはモデルの内部動作に対する忠実さを測るものではなく、むしろ出力レベルでの自己整合性を測るものだ、と私たちは主張する。
論文参考訳（メタデータ） (2023-11-13T16:53:51Z)
Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文参考訳（メタデータ） (2023-05-24T06:41:09Z)
Language Models with Rationality [57.37201135072838]
大規模言語モデル(LLM)は質問応答(QA)に熟練している答えが潜んでいる「信条」からどのように従うか(あるいはたとえも)は必ずしも明確ではない。
論文参考訳（メタデータ） (2023-05-23T17:04:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。