論文の概要: Comparing zero-shot self-explanations with human rationales in multilingual text classification
- arxiv url: http://arxiv.org/abs/2410.03296v1
- Date: Fri, 4 Oct 2024 10:14:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 23:08:51.603551
- Title: Comparing zero-shot self-explanations with human rationales in multilingual text classification
- Title(参考訳): 多言語テキスト分類におけるゼロショット自己説明と人間の理性の比較
- Authors: Stephanie Brandl, Oliver Eberle,
- Abstract要約: 命令調整 LLM は計算や複雑な XAI 法の適用を必要としない自己説明を生成する。
入力論理の形で自己説明を評価することによって、この能力が良い説明をもたらすかどうかを解析する。
以上の結果から,自己説明はLRPよりも人間のアノテーションと密接に一致し,忠実度は同等であることがわかった。
- 参考スコア(独自算出の注目度): 5.32539007352208
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction-tuned LLMs are able to provide an explanation about their output to users by generating self-explanations that do not require gradient computations or the application of possibly complex XAI methods. In this paper, we analyse whether this ability results in a good explanation by evaluating self-explanations in the form of input rationales with respect to their plausibility to humans as well as their faithfulness to models. For this, we apply two text classification tasks: sentiment classification and forced labour detection. Next to English, we further include Danish and Italian translations of the sentiment classification task and compare self-explanations to human annotations for all samples. To allow for direct comparisons, we also compute post-hoc feature attribution, i.e., layer-wise relevance propagation (LRP) and apply this pipeline to 4 LLMs (Llama2, Llama3, Mistral and Mixtral). Our results show that self-explanations align more closely with human annotations compared to LRP, while maintaining a comparable level of faithfulness.
- Abstract(参考訳): インストラクションチューニングされたLLMは、勾配計算や複雑なXAIメソッドの適用を必要としない自己説明を生成することで、その出力をユーザに説明することができる。
本稿では,この能力が,人間に対する妥当性,モデルに対する忠実性に関して,入力論理の形で自己説明を評価することによって,良好な説明をもたらすかどうかを解析する。
そこで本研究では,感情分類と強制労働検出という2つのテキスト分類タスクを適用した。
英語の他に、デンマーク語とイタリア語による感情分類タスクの翻訳も含み、全サンプルに対する自己説明と人間のアノテーションを比較する。
直接比較を可能にするため,本パイプラインを4LLM(Llama2,Llama3,Mistral,Mixtral)に適用する。
以上の結果から,自己説明はLRPよりも人間のアノテーションと密接に一致し,忠実度は同等であることがわかった。
関連論文リスト
- Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Evaluating Evidence Attribution in Generated Fact Checking Explanations [48.776087871960584]
生成した説明文の属性品質を評価するために,新しい評価プロトコル,引用マスキングとリカバリを導入する。
実験により、最高の性能を持つLSMは、不正確な属性を持つ説明を生成することが明らかとなった。
より良い説明を生み出すには人為的な証拠が不可欠である。
論文 参考訳(メタデータ) (2024-06-18T14:13:13Z) - Can Language Models Explain Their Own Classification Behavior? [1.8177391253202122]
大規模言語モデル(LLM)は、無数のタスクでうまく機能するが、このパフォーマンスの背後にあるプロセスを説明することは困難である。
本稿では,LLMが内部プロセスの忠実な高レベルな説明を行えるかどうかを考察する。
私たちはデータセットであるArticulateRulesをリリースし、コンテキスト内または微調整によってトレーニングされたLLMの自己説明をテストするために使用します。
論文 参考訳(メタデータ) (2024-05-13T02:31:08Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z) - A Study of Automatic Metrics for the Evaluation of Natural Language
Explanations [1.7205106391379024]
このような説明の生成と自然言語生成(NLG)の評価の多くの研究分野との平行性を検討する。
本稿では,ベイズネットワークのためのnl説明のクラウドソースコーパスであるexban corpusを提案する。
BERTScore や BLEURT などの埋め込みベースの自動 NLG 評価手法は、BLEU や ROUGE などのワードオーバーラップ指標と比較して、人間の評価と高い相関性を有することが分かりました。
論文 参考訳(メタデータ) (2021-03-15T17:10:39Z) - Leakage-Adjusted Simulatability: Can Models Generate Non-Trivial
Explanations of Their Behavior in Natural Language? [86.60613602337246]
我々はNL説明を評価するためのリーク調整シミュラビリティ(LAS)指標を提案する。
LASは、どのように説明が直接アウトプットをリークするかを制御しながら、オブザーバがモデルのアウトプットを予測するのに役立つかを計測する。
マルチエージェントゲームとしての説明文生成を行い、ラベルリークをペナライズしながら、シミュラビリティの説明を最適化する。
論文 参考訳(メタデータ) (2020-10-08T16:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。