論文の概要: Can Large Language Models Explain Themselves?
- arxiv url: http://arxiv.org/abs/2401.07927v1
- Date: Mon, 15 Jan 2024 19:39:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 15:58:38.103742
- Title: Can Large Language Models Explain Themselves?
- Title(参考訳): 大規模言語モデルに自己説明は可能か?
- Authors: Andreas Madsen, Sarath Chandar, Siva Reddy
- Abstract要約: 自己整合性チェックを,反事実,重要度,リアクションの3種類の自己説明に適用する。
我々の研究は、信頼度はタスク依存とモデル依存の両方であることを示した。例えば、感情分類では、反ファクト的説明は、Llama2、Mistralの重要度、Falcon 40Bのリアクションなど、より忠実である。
- 参考スコア(独自算出の注目度): 38.67924043709067
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Instruction-tuned large language models (LLMs) excel at many tasks, and will
even provide explanations for their behavior. Since these models are directly
accessible to the public, there is a risk that convincing and wrong
explanations can lead to unsupported confidence in LLMs. Therefore,
interpretability-faithfulness of self-explanations is an important
consideration for AI Safety. Assessing the interpretability-faithfulness of
these explanations, termed self-explanations, is challenging as the models are
too complex for humans to annotate what is a correct explanation. To address
this, we propose employing self-consistency checks as a measure of
faithfulness. For example, if an LLM says a set of words is important for
making a prediction, then it should not be able to make the same prediction
without these words. While self-consistency checks are a common approach to
faithfulness, they have not previously been applied to LLM's self-explanations.
We apply self-consistency checks to three types of self-explanations:
counterfactuals, importance measures, and redactions. Our work demonstrate that
faithfulness is both task and model dependent, e.g., for sentiment
classification, counterfactual explanations are more faithful for Llama2,
importance measures for Mistral, and redaction for Falcon 40B. Finally, our
findings are robust to prompt-variations.
- Abstract(参考訳): インストラクションチューニングされた大型言語モデル(LLM)は多くのタスクで優れており、その振る舞いの説明も提供する。
これらのモデルは一般に直接アクセス可能であるため、説得力や誤った説明がLSMへの信頼を損なうリスクがある。
したがって、自己説明の解釈可能性-信条はAI安全にとって重要な考慮事項である。
自己説明と呼ばれるこれらの説明の解釈可能性-忠実さを評価することは、モデルが複雑すぎて人間が正しい説明を注釈付けできないため、難しい。
そこで我々は,信頼度尺度として自己整合性チェックを採用することを提案する。
例えば、llmが単語の集合が予測を行うのに重要であると言うなら、これらの単語なしで同じ予測を行うことはできない。
自己整合性チェックは忠実性に対する一般的なアプローチであるが、LLMの自己説明には適用されていない。
自己整合性チェックを,反事実,重要度,リアクションの3種類の自己説明に適用する。
我々の研究は、信頼度はタスク依存とモデル依存の両方であることを示した。例えば、感情分類では、反ファクト的説明は、Llama2、Mistralの重要度、Falcon 40Bのリアクションなど、より忠実である。
最後に,本症例は即時変動に対して堅牢である。
関連論文リスト
- "I'm Not Sure, But...": Examining the Impact of Large Language Models' Uncertainty Expression on User Reliance and Trust [51.542856739181474]
不確実性の自然言語表現の違いが、参加者の信頼、信頼、全体的なタスクパフォーマンスにどのように影響するかを示す。
その結果, 一人称表情は, 参加者のシステムに対する信頼度を低下させ, 参加者の正確性を高めつつ, システムの回答に同調する傾向にあることがわかった。
以上の結果から,不確実性の自然言語表現の使用は,LLMの過度な依存を軽減するための効果的なアプローチである可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-01T16:43:55Z) - The Probabilities Also Matter: A More Faithful Metric for Faithfulness of Free-Text Explanations in Large Language Models [24.144513068228903]
本稿では,インプット介入に基づく信頼度テストに使用できる指標である相関説明忠実度(CEF)について紹介する。
我々の測定基準は、モデルが予測するラベル分布の総シフトを考慮に入れている。
次に, 相関対実テスト(CCT)を導入し, 相関対実テスト(CEF)をインスタンス化する。
論文 参考訳(メタデータ) (2024-04-04T04:20:04Z) - Large Language Models As Faithful Explainers [67.38301892818778]
大規模言語モデル(LLM)は近年,その豊富な内部知識と推論能力を活用することで,複雑なタスクに対処する技術に長けている。
我々は、LLMの自然言語形式で提供される説明の忠実性を改善するために、生成的説明フレームワークであるxLLMを導入する。
3つのNLUデータセットで行った実験により、xLLMは生成された説明の忠実性を大幅に改善できることが示された。
論文 参考訳(メタデータ) (2024-02-07T09:09:14Z) - Faithfulness vs. Plausibility: On the (Un)Reliability of Explanations from Large Language Models [26.11408084129897]
大規模言語モデル(LLM)は、いくつかの自然言語処理(NLP)アプリケーションのための強力なツールとしてデプロイされる。
最近の研究は、現代のLSMが自己説明(Ses)を生成できることを示している。
LLMが生成するSEの忠実度と妥当性の両立を論じる。
論文 参考訳(メタデータ) (2024-02-07T06:32:50Z) - Evaluating Gender Bias in Large Language Models via Chain-of-Thought
Prompting [87.30837365008931]
CoT(Chain-of-Thought)プロンプトを備えた大規模言語モデル(LLM)は、計算不能なタスクでも正確なインクリメンタルな予測を行うことができる。
本研究では,LLMのステップバイステップ予測が性差に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2024-01-28T06:50:10Z) - On Measuring Faithfulness or Self-consistency of Natural Language
Explanations [26.433639269480345]
大規模言語モデル(LLM)は、ポストホックやチェーン・オブ・ソート(Chain-of-Thought)の説明を通じて予測を説明することができる。
最近の研究は、これらの説明の忠実さを判断するための試験を設計している。
これらのテストはモデルの内部動作に対する忠実さを測るものではなく、むしろ出力レベルでの自己整合性を測るものだ、と私たちは主張する。
論文 参考訳(メタデータ) (2023-11-13T16:53:51Z) - Quantifying Uncertainty in Natural Language Explanations of Large
Language Models [29.34960984639281]
大規模言語モデル (LLM) は、高スループット自然言語処理 (NLP) アプリケーションのための強力なツールとして、ますます使われている。
生成された説明の不確かさを定量化するために、$textitVerbalized Uncertainty$と$textitProbing Uncertainty$という2つの新しいメトリクスを提案します。
ベンチマークデータセットの実証分析により、言語化された不確実性は説明の信頼性の信頼できる見積りではないことが判明した。
論文 参考訳(メタデータ) (2023-11-06T21:14:40Z) - Can Large Language Models Explain Themselves? A Study of LLM-Generated
Self-Explanations [14.685170467182369]
ChatGPTのような大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて優れた性能を示している。
これらのモデルは、人間の会話に"ヘルプフル"な応答を生成するように調整されているため、応答とともに説明を生成できる。
論文 参考訳(メタデータ) (2023-10-17T12:34:32Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Language Models with Rationality [57.37201135072838]
大規模言語モデル(LLM)は質問応答(QA)に熟練している
答えが潜んでいる「信条」からどのように従うか(あるいはたとえも)は必ずしも明確ではない。
論文 参考訳(メタデータ) (2023-05-23T17:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。