論文の概要: Are self-explanations from Large Language Models faithful?
- arxiv url: http://arxiv.org/abs/2401.07927v3
- Date: Thu, 15 Feb 2024 17:19:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 18:39:44.816549
- Title: Are self-explanations from Large Language Models faithful?
- Title(参考訳): 大規模言語モデルの自己説明は忠実か?
- Authors: Andreas Madsen, Sarath Chandar, Siva Reddy
- Abstract要約: 大規模言語モデル(LLM)は多くのタスクを抽出し、その推論、いわゆる自己説明を説明する。
自己説明がモデルの振舞いを本当に反映しているかを測定することが重要です。
信頼度を測定するために自己整合性チェックを採用することを提案する。
- 参考スコア(独自算出の注目度): 38.67924043709067
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Instruction-tuned Large Language Models (LLMs) excel at many tasks and will
even explain their reasoning, so-called self-explanations. However, convincing
and wrong self-explanations can lead to unsupported confidence in LLMs, thus
increasing risk. Therefore, it's important to measure if self-explanations
truly reflect the model's behavior. Such a measure is called
interpretability-faithfulness and is challenging to perform since the ground
truth is inaccessible, and many LLMs only have an inference API. To address
this, we propose employing self-consistency checks to measure faithfulness. For
example, if an LLM says a set of words is important for making a prediction,
then it should not be able to make its prediction without these words. While
self-consistency checks are a common approach to faithfulness, they have not
previously been successfully applied to LLM self-explanations for
counterfactual, importance measure, and redaction explanations. Our results
demonstrate that faithfulness is explanation, model, and task-dependent,
showing self-explanations should not be trusted in general. For example, with
sentiment classification, counterfactuals are more faithful for Llama2,
importance measures for Mistral, and redaction for Falcon 40B.
- Abstract(参考訳): LLM(Instruction-tuned Large Language Models)は、多くのタスクを抽出し、その推論、いわゆる自己説明を説明する。
しかし、説得力と誤った自己説明はllmに対する信頼を防ぎ、リスクを増大させる可能性がある。
したがって、自己説明がモデルの振る舞いを本当に反映しているかを測定することが重要です。
このような測度は解釈可能性(interpretability-faithfulness)と呼ばれ、基底真理が到達不能であるため実行が困難であり、多くのLCMは推論APIしか持たない。
そこで本稿では,信頼度を測定するための自己整合性チェックを提案する。
例えば、llmが単語の集合が予測を行うのに重要であると言うなら、これらの単語なしでその単語を予測することはできないはずである。
自己整合性チェックは、忠実性に対する一般的なアプローチであるが、以前は、反現実性、重要度、リアクションの説明のためのLSM自己説明にうまく適用されなかった。
本研究は,自己説明が一般に信頼されてはならないことを示す,説明,モデル,タスク依存であることを示す。
例えば、感情分類では、反事実はLlama2、Mistralの重要度、Falcon 40Bの再作用に忠実である。
関連論文リスト
- "I'm Not Sure, But...": Examining the Impact of Large Language Models' Uncertainty Expression on User Reliance and Trust [51.542856739181474]
不確実性の自然言語表現の違いが、参加者の信頼、信頼、全体的なタスクパフォーマンスにどのように影響するかを示す。
その結果, 一人称表情は, 参加者のシステムに対する信頼度を低下させ, 参加者の正確性を高めつつ, システムの回答に同調する傾向にあることがわかった。
以上の結果から,不確実性の自然言語表現の使用は,LLMの過度な依存を軽減するための効果的なアプローチである可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-01T16:43:55Z) - The Probabilities Also Matter: A More Faithful Metric for Faithfulness of Free-Text Explanations in Large Language Models [24.144513068228903]
本稿では,インプット介入に基づく信頼度テストに使用できる指標である相関説明忠実度(CEF)について紹介する。
我々の測定基準は、モデルが予測するラベル分布の総シフトを考慮に入れている。
次に, 相関対実テスト(CCT)を導入し, 相関対実テスト(CEF)をインスタンス化する。
論文 参考訳(メタデータ) (2024-04-04T04:20:04Z) - Large Language Models As Faithful Explainers [67.38301892818778]
大規模言語モデル(LLM)は近年,その豊富な内部知識と推論能力を活用することで,複雑なタスクに対処する技術に長けている。
我々は、LLMの自然言語形式で提供される説明の忠実性を改善するために、生成的説明フレームワークであるxLLMを導入する。
3つのNLUデータセットで行った実験により、xLLMは生成された説明の忠実性を大幅に改善できることが示された。
論文 参考訳(メタデータ) (2024-02-07T09:09:14Z) - Faithfulness vs. Plausibility: On the (Un)Reliability of Explanations from Large Language Models [26.11408084129897]
大規模言語モデル(LLM)は、いくつかの自然言語処理(NLP)アプリケーションのための強力なツールとしてデプロイされる。
最近の研究は、現代のLSMが自己説明(Ses)を生成できることを示している。
LLMが生成するSEの忠実度と妥当性の両立を論じる。
論文 参考訳(メタデータ) (2024-02-07T06:32:50Z) - Evaluating Gender Bias in Large Language Models via Chain-of-Thought
Prompting [87.30837365008931]
CoT(Chain-of-Thought)プロンプトを備えた大規模言語モデル(LLM)は、計算不能なタスクでも正確なインクリメンタルな予測を行うことができる。
本研究では,LLMのステップバイステップ予測が性差に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2024-01-28T06:50:10Z) - On Measuring Faithfulness or Self-consistency of Natural Language
Explanations [26.433639269480345]
大規模言語モデル(LLM)は、ポストホックやチェーン・オブ・ソート(Chain-of-Thought)の説明を通じて予測を説明することができる。
最近の研究は、これらの説明の忠実さを判断するための試験を設計している。
これらのテストはモデルの内部動作に対する忠実さを測るものではなく、むしろ出力レベルでの自己整合性を測るものだ、と私たちは主張する。
論文 参考訳(メタデータ) (2023-11-13T16:53:51Z) - Quantifying Uncertainty in Natural Language Explanations of Large
Language Models [29.34960984639281]
大規模言語モデル (LLM) は、高スループット自然言語処理 (NLP) アプリケーションのための強力なツールとして、ますます使われている。
生成された説明の不確かさを定量化するために、$textitVerbalized Uncertainty$と$textitProbing Uncertainty$という2つの新しいメトリクスを提案します。
ベンチマークデータセットの実証分析により、言語化された不確実性は説明の信頼性の信頼できる見積りではないことが判明した。
論文 参考訳(メタデータ) (2023-11-06T21:14:40Z) - Can Large Language Models Explain Themselves? A Study of LLM-Generated
Self-Explanations [14.685170467182369]
ChatGPTのような大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて優れた性能を示している。
これらのモデルは、人間の会話に"ヘルプフル"な応答を生成するように調整されているため、応答とともに説明を生成できる。
論文 参考訳(メタデータ) (2023-10-17T12:34:32Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Language Models with Rationality [57.37201135072838]
大規模言語モデル(LLM)は質問応答(QA)に熟練している
答えが潜んでいる「信条」からどのように従うか(あるいはたとえも)は必ずしも明確ではない。
論文 参考訳(メタデータ) (2023-05-23T17:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。