論文の概要: Comparing zero-shot self-explanations with human rationales in text classification
- arxiv url: http://arxiv.org/abs/2410.03296v2
- Date: Fri, 21 Feb 2025 13:45:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 17:08:09.970443
- Title: Comparing zero-shot self-explanations with human rationales in text classification
- Title(参考訳): テキスト分類におけるゼロショット自己説明と人間的理性の比較
- Authors: Stephanie Brandl, Oliver Eberle,
- Abstract要約: 我々は,人間に対する妥当性とモデルに対する忠実性に関して,自己説明を評価した。
自己説明は、LRPと比較して人間のアノテーションとより密に一致し、かつ、同等の忠実さを維持していることを示す。
- 参考スコア(独自算出の注目度): 5.32539007352208
- License:
- Abstract: Instruction-tuned LLMs are able to provide an explanation about their output to users by generating self-explanations. These do not require gradient computations or the application of possibly complex XAI methods. In this paper, we analyse whether this ability results in a good explanation. We evaluate self-explanations in the form of input rationales with respect to their plausibility to humans as well as their faithfulness to models. We study two text classification tasks: sentiment classification and forced labour detection, i.e., identifying pre-defined risk indicators of forced labour. In addition to English, we include Danish and Italian translations of the sentiment classification task and compare self-explanations to human annotations for all samples. To allow for direct comparisons, we also compute post-hoc feature attribution, i.e., layer-wise relevance propagation (LRP) and analyse 4 LLMs. We show that self-explanations align more closely with human annotations compared to LRP, while maintaining a comparable level of faithfulness. This finding suggests that self-explanations indeed provide good explanations for text classification.
- Abstract(参考訳): インストラクションチューニングされたLLMは、自己説明を生成することで、ユーザに対してアウトプットの説明を提供することができる。
これらは勾配計算や複雑なXAI法の適用を必要としない。
本稿では,この能力が良い説明につながるかどうかを解析する。
我々は,人間に対する妥当性,モデルに対する忠実性に関して,入力的合理性という形で自己説明を評価する。
我々は、感情分類と強制労働検出の2つのテキスト分類タスク、すなわち強制労働の事前定義されたリスク指標を同定する。
英語に加えて、デンマーク語とイタリア語による感情分類タスクの翻訳も含み、すべてのサンプルについて自己説明と人間のアノテーションを比較します。
また, 直接比較を可能にするため, ポストホック特徴属性, すなわちレイヤワイド関連伝搬(LRP)を計算し, 4つのLLMを解析する。
自己説明は、LRPと比較して人間のアノテーションとより密に一致し、かつ、同等の忠実さを維持していることを示す。
この発見は、自己説明が確かにテキスト分類に良い説明をもたらすことを示唆している。
関連論文リスト
- Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Evaluating Evidence Attribution in Generated Fact Checking Explanations [48.776087871960584]
我々は、新しい評価プロトコル、引用マスキングとリカバリを導入する。
我々は,自動アノテータとヒューマンアノテータの両方を用いてプロトコルを実装した。
実験により、最高の性能を持つLSMは、不正確な属性を持つ説明を生成することが明らかとなった。
論文 参考訳(メタデータ) (2024-06-18T14:13:13Z) - Can Language Models Explain Their Own Classification Behavior? [1.8177391253202122]
大規模言語モデル(LLM)は、無数のタスクでうまく機能するが、このパフォーマンスの背後にあるプロセスを説明することは困難である。
本稿では,LLMが内部プロセスの忠実な高レベルな説明を行えるかどうかを考察する。
私たちはデータセットであるArticulateRulesをリリースし、コンテキスト内または微調整によってトレーニングされたLLMの自己説明をテストするために使用します。
論文 参考訳(メタデータ) (2024-05-13T02:31:08Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z) - A Study of Automatic Metrics for the Evaluation of Natural Language
Explanations [1.7205106391379024]
このような説明の生成と自然言語生成(NLG)の評価の多くの研究分野との平行性を検討する。
本稿では,ベイズネットワークのためのnl説明のクラウドソースコーパスであるexban corpusを提案する。
BERTScore や BLEURT などの埋め込みベースの自動 NLG 評価手法は、BLEU や ROUGE などのワードオーバーラップ指標と比較して、人間の評価と高い相関性を有することが分かりました。
論文 参考訳(メタデータ) (2021-03-15T17:10:39Z) - Leakage-Adjusted Simulatability: Can Models Generate Non-Trivial
Explanations of Their Behavior in Natural Language? [86.60613602337246]
我々はNL説明を評価するためのリーク調整シミュラビリティ(LAS)指標を提案する。
LASは、どのように説明が直接アウトプットをリークするかを制御しながら、オブザーバがモデルのアウトプットを予測するのに役立つかを計測する。
マルチエージェントゲームとしての説明文生成を行い、ラベルリークをペナライズしながら、シミュラビリティの説明を最適化する。
論文 参考訳(メタデータ) (2020-10-08T16:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。