論文の概要: Can Large Language Models Explain Themselves? A Study of LLM-Generated
Self-Explanations
- arxiv url: http://arxiv.org/abs/2310.11207v1
- Date: Tue, 17 Oct 2023 12:34:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 15:58:45.651181
- Title: Can Large Language Models Explain Themselves? A Study of LLM-Generated
Self-Explanations
- Title(参考訳): 大規模言語モデルに自己説明は可能か?
LLMによる自己説明の検討
- Authors: Shiyuan Huang, Siddarth Mamidanna, Shreedhar Jangam, Yilun Zhou,
Leilani H. Gilpin
- Abstract要約: ChatGPTのような大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて優れた性能を示している。
これらのモデルは、人間の会話に"ヘルプフル"な応答を生成するように調整されているため、応答とともに説明を生成できる。
- 参考スコア(独自算出の注目度): 14.685170467182369
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) such as ChatGPT have demonstrated superior
performance on a variety of natural language processing (NLP) tasks including
sentiment analysis, mathematical reasoning and summarization. Furthermore,
since these models are instruction-tuned on human conversations to produce
"helpful" responses, they can and often will produce explanations along with
the response, which we call self-explanations. For example, when analyzing the
sentiment of a movie review, the model may output not only the positivity of
the sentiment, but also an explanation (e.g., by listing the sentiment-laden
words such as "fantastic" and "memorable" in the review). How good are these
automatically generated self-explanations? In this paper, we investigate this
question on the task of sentiment analysis and for feature attribution
explanation, one of the most commonly studied settings in the interpretability
literature (for pre-ChatGPT models). Specifically, we study different ways to
elicit the self-explanations, evaluate their faithfulness on a set of
evaluation metrics, and compare them to traditional explanation methods such as
occlusion or LIME saliency maps. Through an extensive set of experiments, we
find that ChatGPT's self-explanations perform on par with traditional ones, but
are quite different from them according to various agreement metrics, meanwhile
being much cheaper to produce (as they are generated along with the
prediction). In addition, we identified several interesting characteristics of
them, which prompt us to rethink many current model interpretability practices
in the era of ChatGPT(-like) LLMs.
- Abstract(参考訳): ChatGPTのような大規模言語モデル(LLM)は、感情分析、数学的推論、要約を含む様々な自然言語処理(NLP)タスクにおいて優れた性能を示している。
さらに、これらのモデルは人間の会話を指導して「楽しい」応答を生成するため、自己説明(self-explanations)と呼ばれる応答とともに説明を生成できる。
例えば、映画レビューの感情を分析した場合、モデルは感情の肯定性だけでなく説明も出力することができる(例えば、レビューで「fantastic」や「memorable」といった感情に満ちた単語をリストアップすることで)。
これらの自動生成自己説明はどの程度優れているか?
本稿では,感情分析の課題と特徴帰属説明について検討し,解釈可能性の文献(ChatGPT前モデル)において最もよく研究されている設定の1つである。
具体的には, 自己説明を抽出し, 評価指標の集合に対する信頼度を評価し, 隠蔽マップやLIMEサリエンシマップなどの従来の説明手法と比較する。
広範な実験を通じて、chatgptの自己説明は従来のものと同等に機能するが、様々な合意基準でそれとは大きく異なることが分かり、一方で(予測と共に生成されるように)生産するコストもずっと安くなることがわかった。
さらに,それらの興味深い特徴を明らかにし,ChatGPT(-like) LLMの時代に,現在のモデル解釈可能性の実践を再考するきっかけとなった。
関連論文リスト
- Comparing zero-shot self-explanations with human rationales in multilingual text classification [5.32539007352208]
命令調整 LLM は計算や複雑な XAI 法の適用を必要としない自己説明を生成する。
入力論理の形で自己説明を評価することによって、この能力が良い説明をもたらすかどうかを解析する。
以上の結果から,自己説明はLRPよりも人間のアノテーションと密接に一致し,忠実度は同等であることがわかった。
論文 参考訳(メタデータ) (2024-10-04T10:14:12Z) - Scenarios and Approaches for Situated Natural Language Explanations [18.022428746019582]
ベンチマークデータセットである条件ベース説明を収集します。
このデータセットには100の説明書が含まれている。
オーディエンスと組み合わせたエクスラナンダム(explanandum paired with a audience)"の各状況について、人間による説明を含める。
本稿では,ルールベースのプロンプト,メタプロンプト,コンテキスト内学習プロンプトの3つのカテゴリについて検討する。
論文 参考訳(メタデータ) (2024-06-07T15:56:32Z) - Evaluating Consistency and Reasoning Capabilities of Large Language Models [0.0]
大規模言語モデル(LLM)は現在、学術、研究、ビジネス、金融など様々な分野で広く使われている。
広く採用されているにもかかわらず、これらのモデルはしばしば誤った誤解を招く情報を生み出し、幻覚の傾向を示す。
本稿では,パブリックおよびプロプライエタリLLMの整合性と推論能力を評価・比較することを目的とする。
論文 参考訳(メタデータ) (2024-04-25T10:03:14Z) - Beware of Words: Evaluating the Lexical Diversity of Conversational LLMs using ChatGPT as Case Study [3.0059120458540383]
対話型大言語モデル(LLM)が生成するテキストの語彙的リッチ性の評価と,それがモデルパラメータにどのように依存するかを検討する。
その結果、語彙豊かさがChatGPTのバージョンと、そのパラメータのいくつか、例えば存在ペナルティやモデルに割り当てられた役割にどのように依存しているかが示される。
論文 参考訳(メタデータ) (2024-02-11T13:41:17Z) - "You Are An Expert Linguistic Annotator": Limits of LLMs as Analyzers of
Abstract Meaning Representation [60.863629647985526]
文意味構造の解析において, GPT-3, ChatGPT, および GPT-4 モデルの成功と限界について検討した。
モデルはAMRの基本形式を確実に再現でき、しばしばコアイベント、引数、修飾子構造をキャプチャできる。
全体としては,これらのモデルではセマンティック構造の側面を捉えることができるが,完全に正確なセマンティック解析や解析をサポートする能力には重要な制限が残されている。
論文 参考訳(メタデータ) (2023-10-26T21:47:59Z) - Towards a Mechanistic Interpretation of Multi-Step Reasoning
Capabilities of Language Models [107.07851578154242]
言語モデル(LM)は強力な多段階推論能力を持つ。
LMが事前学習コーパスから記憶された回答を不正に処理するか,多段階推論機構を用いてタスクを実行するかは明らかでない。
メカニスティックプローブは,ほとんどの例において,モデルの注意から推論ツリーの情報を検出することができることを示す。
論文 参考訳(メタデータ) (2023-10-23T01:47:29Z) - STREET: A Multi-Task Structured Reasoning and Explanation Benchmark [56.555662318619135]
マルチタスクとマルチドメインの自然言語推論と説明ベンチマークを統一的に導入する。
我々は、モデルが質問に答えるだけでなく、ある解の正しさを証明できる中間的な結論を生成するために、問題の前提がどのように使われているかを記述する、段階的に構造化された説明を生成することを期待している。
論文 参考訳(メタデータ) (2023-02-13T22:34:02Z) - The Goldilocks of Pragmatic Understanding: Fine-Tuning Strategy Matters
for Implicature Resolution by LLMs [26.118193748582197]
我々は、広く使われている最先端モデルの4つのカテゴリを評価する。
2進推論を必要とする発話のみを評価するにもかかわらず、3つのカテゴリのモデルはランダムに近い性能を示す。
これらの結果は、特定の微調整戦略がモデルにおける実用的理解を誘導する上ではるかに優れていることを示唆している。
論文 参考訳(メタデータ) (2022-10-26T19:04:23Z) - Interpreting Language Models with Contrastive Explanations [99.7035899290924]
言語モデルは、音声、数字、時制、意味論など、トークンを予測するための様々な特徴を考慮しなければならない。
既存の説明手法は、これらの特徴の証拠を1つの説明に分割するが、人間の理解には理解できない。
比較的な説明は、主要な文法現象の検証において、非対照的な説明よりも定量的に優れていることを示す。
論文 参考訳(メタデータ) (2022-02-21T18:32:24Z) - Prompting Contrastive Explanations for Commonsense Reasoning Tasks [74.7346558082693]
大規模事前学習言語モデル(PLM)は、常識推論タスクにおいて、ほぼ人間に近い性能を達成することができる。
人間の解釈可能な証拠を生成するために、同じモデルを使う方法を示す。
論文 参考訳(メタデータ) (2021-06-12T17:06:13Z) - Evaluating Explanations: How much do explanations from the teacher aid
students? [103.05037537415811]
本研究では,説明が生徒の学習モデルを改善する程度を測る学生-教師パラダイムを用いて,説明の価値を定式化する。
説明を評価するための従来の提案とは異なり、我々のアプローチは容易にゲーム化できず、原則付き、スケーラブルで、属性の自動評価を可能にします。
論文 参考訳(メタデータ) (2020-12-01T23:40:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。