論文の概要: A Rose by Any Other Name: LLM-Generated Explanations Are Good Proxies for Human Explanations to Collect Label Distributions on NLI
- arxiv url: http://arxiv.org/abs/2412.13942v1
- Date: Wed, 18 Dec 2024 15:24:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 13:24:43.465567
- Title: A Rose by Any Other Name: LLM-Generated Explanations Are Good Proxies for Human Explanations to Collect Label Distributions on NLI
- Title(参考訳): 他の名前によるバラ: LLMの生成した説明は、NLI上のラベル分布を収集するための人間の説明にとって良いプロキシである
- Authors: Beiduo Chen, Siyao Peng, Anna Korhonen, Barbara Plank,
- Abstract要約: 人間のラベリングにおける分解はユビキタスであり、ヒトの判断分布(HJD)で捉えることができる
近年の研究では、人間のラベル変化(HLV)を理解するための貴重な情報を提供していることが示されている。
本稿では,HJDを近似するための説明を生成する際に,大規模言語モデル (LLM) を用いて人間を置き換えることができるかどうかを検討する。
- 参考スコア(独自算出の注目度): 41.029671072957264
- License:
- Abstract: Disagreement in human labeling is ubiquitous, and can be captured in human judgment distributions (HJDs). Recent research has shown that explanations provide valuable information for understanding human label variation (HLV) and large language models (LLMs) can approximate HJD from a few human-provided label-explanation pairs. However, collecting explanations for every label is still time-consuming. This paper examines whether LLMs can be used to replace humans in generating explanations for approximating HJD. Specifically, we use LLMs as annotators to generate model explanations for a few given human labels. We test ways to obtain and combine these label-explanations with the goal to approximate human judgment distribution. We further compare the resulting human with model-generated explanations, and test automatic and human explanation selection. Our experiments show that LLM explanations are promising for NLI: to estimate HJD, generated explanations yield comparable results to human's when provided with human labels. Importantly, our results generalize from datasets with human explanations to i) datasets where they are not available and ii) challenging out-of-distribution test sets.
- Abstract(参考訳): 人間のラベルの識別はユビキタスであり、ヒトの判断分布(HJD)で捉えることができる。
近年の研究では、人間ラベル変動(HLV)と大規模言語モデル(LLM)の理解に有用な説明を提供することが示されている。
しかし、各レーベルの説明を集めるのにはまだ時間がかかる。
本稿では,HJDを近似するための説明を生成する上で,LLMを人間に置き換えることができるかどうかを検討する。
具体的には、LLMをアノテータとして使用し、いくつかの人間のラベルに対するモデル説明を生成する。
我々は、これらのラベル説明と人間の判断分布を近似する目的とを、獲得し、組み合わせる方法を試す。
さらに、結果の人体とモデル生成の説明とを比較し、自動的および人体的説明選択をテストする。
実験の結果,LLMの説明はNLIに有望であることがわかった。HJDを推定するために,生成した説明は人間のラベルを付与した場合と同等の結果が得られる。
重要なことは、私たちの結果は人間の説明を伴うデータセットから一般化されます。
一 利用できないデータセット及び
二 アウト・オブ・ディストリビューションテストセットに挑戦すること。
関連論文リスト
- Comparing zero-shot self-explanations with human rationales in multilingual text classification [5.32539007352208]
命令調整 LLM は計算や複雑な XAI 法の適用を必要としない自己説明を生成する。
入力論理の形で自己説明を評価することによって、この能力が良い説明をもたらすかどうかを解析する。
以上の結果から,自己説明はLRPよりも人間のアノテーションと密接に一致し,忠実度は同等であることがわかった。
論文 参考訳(メタデータ) (2024-10-04T10:14:12Z) - "Seeing the Big through the Small": Can LLMs Approximate Human Judgment Distributions on NLI from a Few Explanations? [41.57673268042933]
大規模言語モデル (LLM) は評価指標として使われることが多いが、結果が混在している。
本研究は,少数の専門家ラベルと説明を用いて,LLMを用いてHJDを近似することを提案する。
実験の結果,LLMのHJDを明示的なラベルなしで近似する能力は,いくつかの説明が著しく向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-25T14:42:17Z) - Evaluating Evidence Attribution in Generated Fact Checking Explanations [48.776087871960584]
我々は、新しい評価プロトコル、引用マスキングとリカバリを導入する。
我々は,自動アノテータとヒューマンアノテータの両方を用いてプロトコルを実装した。
実験により、最高の性能を持つLSMは、不正確な属性を持つ説明を生成することが明らかとなった。
論文 参考訳(メタデータ) (2024-06-18T14:13:13Z) - XplainLLM: A QA Explanation Dataset for Understanding LLM
Decision-Making [13.928951741632815]
大規模言語モデル(LLM)は、最近、自然言語理解タスクにおいて顕著な進歩を遂げた。
本稿では、新しい説明データセットを導入することにより、このプロセスに透明性をもたらすことを検討する。
我々のデータセットには12,102のQAEトリプルが含まれている。
論文 参考訳(メタデータ) (2023-11-15T00:34:28Z) - Do Models Explain Themselves? Counterfactual Simulatability of Natural
Language Explanations [62.61495090463084]
大規模言語モデル(LLM)は、人間の決定を説明するために人間を模倣するために訓練されている。
そこで本研究では,人間による多種多様なファクトファクトに対して,モデルの出力を正確に推定できるかどうかを検証した。
LLMの説明は精度が低く、精度は妥当性と相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-17T17:41:47Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Are Human Explanations Always Helpful? Towards Objective Evaluation of
Human Natural Language Explanations [27.624182544486334]
人間の注釈による説明の質は、その有用性に基づいて測定できるという考え方に基づいて構築する。
モデル性能の説明の有用性を考慮に入れた新しい指標を定義する。
論文 参考訳(メタデータ) (2023-05-04T19:31:50Z) - Leakage-Adjusted Simulatability: Can Models Generate Non-Trivial
Explanations of Their Behavior in Natural Language? [86.60613602337246]
我々はNL説明を評価するためのリーク調整シミュラビリティ(LAS)指標を提案する。
LASは、どのように説明が直接アウトプットをリークするかを制御しながら、オブザーバがモデルのアウトプットを予測するのに役立つかを計測する。
マルチエージェントゲームとしての説明文生成を行い、ラベルリークをペナライズしながら、シミュラビリティの説明を最適化する。
論文 参考訳(メタデータ) (2020-10-08T16:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。