論文の概要: Using Natural Language Explanations to Rescale Human Judgments
- arxiv url: http://arxiv.org/abs/2305.14770v1
- Date: Wed, 24 May 2023 06:19:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 19:11:55.165564
- Title: Using Natural Language Explanations to Rescale Human Judgments
- Title(参考訳): 自然言語による人間の判断の再現
- Authors: Manya Wadhwa, Jifan Chen, Junyi Jessy Li, Greg Durrett
- Abstract要約: 一般的な実践は、複数のクラウドワーカーの判断に対してコンセンサスアノテーションを通じてデータをラベル付けすることである。
これらのニュアンスを,高品質な自然言語による説明によって捉えることができることを示す。
本稿では,不一致の有無で順序付けアノテーションを再スケールする手法を提案する。
- 参考スコア(独自算出の注目度): 62.676427453769286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of large language models (LLMs) has brought a critical need for
high-quality human-labeled data, particularly for processes like human feedback
and evaluation. A common practice is to label data via consensus annotation
over the judgments of multiple crowdworkers. However, different annotators may
have different interpretations of labeling schemes unless given extensive
training, and for subjective NLP tasks, even trained expert annotators can
diverge heavily. We show that these nuances can be captured by high quality
natural language explanations, and propose a method to rescale ordinal
annotation in the presence of disagreement using LLMs. Specifically, we feed
Likert ratings and corresponding natural language explanations into an LLM and
prompt it to produce a numeric score. This score should reflect the underlying
assessment of the example by the annotator. The presence of explanations allows
the LLM to homogenize ratings across annotators in spite of scale usage
differences. We explore our technique in the context of a document-grounded
question answering task on which large language models achieve near-human
performance. Among questions where annotators identify incompleteness in the
answers, our rescaling improves correlation between nearly all annotator pairs,
improving pairwise correlation on these examples by an average of 0.2 Kendall's
tau.
- Abstract(参考訳): 大規模言語モデル(llm)の台頭は、高品質な人間ラベルデータ、特に人間のフィードバックや評価のようなプロセスに対する重要な要求をもたらした。
一般的な実践は、複数のクラウドワーカーの判断に対してコンセンサスアノテーションを通じてデータをラベル付けることである。
しかし、異なるアノテータは、広範囲の訓練を受けない限り、異なるラベリングスキームの解釈を持ち、主観的なNLPタスクでは、訓練された専門家アノテータさえも大きく分散することができる。
本稿では,これらのニュアンスを高品質な自然言語による説明によって捉えることができることを示すとともに,LLMを用いた不一致の存在下でのオーディナルアノテーションの再スケール手法を提案する。
具体的には、Likert格付けとそれに対応する自然言語説明をLLMに入力し、数値スコアを生成する。
このスコアは、アノテーションによる例の根底にある評価を反映すべきである。
説明の存在により、llmは、スケール使用量の違いにもかかわらず、注釈者間で評価を均質化することができる。
我々は,大規模言語モデルがほぼ人間に近い性能を達成できる文書型質問応答タスクの文脈で,我々の手法を探求する。
アノテータが答えの不完全性を識別する問題の中で、我々の再スケーリングは、ほぼ全てのアノテータペア間の相関を改善し、これらの例のペア関係を平均0.2ケンドールのタウで改善する。
関連論文リスト
- Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - Comparing zero-shot self-explanations with human rationales in multilingual text classification [5.32539007352208]
命令調整 LLM は計算や複雑な XAI 法の適用を必要としない自己説明を生成する。
入力論理の形で自己説明を評価することによって、この能力が良い説明をもたらすかどうかを解析する。
以上の結果から,自己説明はLRPよりも人間のアノテーションと密接に一致し,忠実度は同等であることがわかった。
論文 参考訳(メタデータ) (2024-10-04T10:14:12Z) - Evaluating the Evaluator: Measuring LLMs' Adherence to Task Evaluation Instructions [18.93335792080899]
LLMs-as-a-judgeがAI判断と人間の判断の整合性に与える影響について検討する。
我々は、LLMによる最先端評価で一般的に使用される品質基準の分類を集約し、それを審査員として厳密なモデルベンチマークとして提供する。
論文 参考訳(メタデータ) (2024-08-16T14:49:35Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Capturing Perspectives of Crowdsourced Annotators in Subjective Learning Tasks [9.110872603799839]
監督された分類は、人間によって注釈付けされたデータセットに大きく依存する。
毒性分類などの主観的なタスクでは、これらのアノテーションはラッカー間での合意が低くなることが多い。
本研究では、主観的分類タスクのためのtextbfAnnotator Awares for Texts (AART) を提案する。
論文 参考訳(メタデータ) (2023-11-16T10:18:32Z) - Peering Through Preferences: Unraveling Feedback Acquisition for
Aligning Large Language Models [32.843361525236965]
スパースフィードバックが大規模言語モデルのアライメントと評価に与える影響を解析する。
評価やランク付けの好みは、人間とAIのアノテータの双方で60%と大きく異なっています。
本研究は,言語モデルの現実的有用性を評価する手法において,重要なギャップを浮き彫りにした。
論文 参考訳(メタデータ) (2023-08-30T07:35:32Z) - Perspectives on Large Language Models for Relevance Judgment [56.935731584323996]
大型言語モデル(LLM)は、関連判断を支援することができると主張している。
自動判定が検索システムの評価に確実に利用できるかどうかは不明である。
論文 参考訳(メタデータ) (2023-04-13T13:08:38Z) - Re-Examining Human Annotations for Interpretable NLP [80.81532239566992]
我々は、Interpretable NLPで広く使われている2つのデータセット上で、クラウドソースのウェブサイトを用いて制御実験を行う。
我々は,異なる資格レベルを満たす人材の募集から得られた注釈結果を比較した。
以上の結果から,アノテーションの品質は労働者の資格に高い影響を受けており,労働者は指示によって特定のアノテーションを提供するように指導することができることがわかった。
論文 参考訳(メタデータ) (2022-04-10T02:27:30Z) - Elephant in the Room: An Evaluation Framework for Assessing Adversarial
Examples in NLP [24.661335236627053]
逆の例は、機械学習モデルが常に誤分類している小さな摂動によって変換された入力である。
本稿では,自動評価指標と人的評価ガイドラインからなる評価フレームワークを提案する。
論文 参考訳(メタデータ) (2020-01-22T00:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。