論文の概要: Using Natural Language Explanations to Rescale Human Judgments
- arxiv url: http://arxiv.org/abs/2305.14770v1
- Date: Wed, 24 May 2023 06:19:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 19:11:55.165564
- Title: Using Natural Language Explanations to Rescale Human Judgments
- Title(参考訳): 自然言語による人間の判断の再現
- Authors: Manya Wadhwa, Jifan Chen, Junyi Jessy Li, Greg Durrett
- Abstract要約: 一般的な実践は、複数のクラウドワーカーの判断に対してコンセンサスアノテーションを通じてデータをラベル付けすることである。
これらのニュアンスを,高品質な自然言語による説明によって捉えることができることを示す。
本稿では,不一致の有無で順序付けアノテーションを再スケールする手法を提案する。
- 参考スコア(独自算出の注目度): 62.676427453769286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of large language models (LLMs) has brought a critical need for
high-quality human-labeled data, particularly for processes like human feedback
and evaluation. A common practice is to label data via consensus annotation
over the judgments of multiple crowdworkers. However, different annotators may
have different interpretations of labeling schemes unless given extensive
training, and for subjective NLP tasks, even trained expert annotators can
diverge heavily. We show that these nuances can be captured by high quality
natural language explanations, and propose a method to rescale ordinal
annotation in the presence of disagreement using LLMs. Specifically, we feed
Likert ratings and corresponding natural language explanations into an LLM and
prompt it to produce a numeric score. This score should reflect the underlying
assessment of the example by the annotator. The presence of explanations allows
the LLM to homogenize ratings across annotators in spite of scale usage
differences. We explore our technique in the context of a document-grounded
question answering task on which large language models achieve near-human
performance. Among questions where annotators identify incompleteness in the
answers, our rescaling improves correlation between nearly all annotator pairs,
improving pairwise correlation on these examples by an average of 0.2 Kendall's
tau.
- Abstract(参考訳): 大規模言語モデル(llm)の台頭は、高品質な人間ラベルデータ、特に人間のフィードバックや評価のようなプロセスに対する重要な要求をもたらした。
一般的な実践は、複数のクラウドワーカーの判断に対してコンセンサスアノテーションを通じてデータをラベル付けることである。
しかし、異なるアノテータは、広範囲の訓練を受けない限り、異なるラベリングスキームの解釈を持ち、主観的なNLPタスクでは、訓練された専門家アノテータさえも大きく分散することができる。
本稿では,これらのニュアンスを高品質な自然言語による説明によって捉えることができることを示すとともに,LLMを用いた不一致の存在下でのオーディナルアノテーションの再スケール手法を提案する。
具体的には、Likert格付けとそれに対応する自然言語説明をLLMに入力し、数値スコアを生成する。
このスコアは、アノテーションによる例の根底にある評価を反映すべきである。
説明の存在により、llmは、スケール使用量の違いにもかかわらず、注釈者間で評価を均質化することができる。
我々は,大規模言語モデルがほぼ人間に近い性能を達成できる文書型質問応答タスクの文脈で,我々の手法を探求する。
アノテータが答えの不完全性を識別する問題の中で、我々の再スケーリングは、ほぼ全てのアノテータペア間の相関を改善し、これらの例のペア関係を平均0.2ケンドールのタウで改善する。
関連論文リスト
- Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Capturing Perspectives of Crowdsourced Annotators in Subjective Learning
Tasks [9.654024757018984]
ほとんどの分類モデルでは、各データポイントに対して単一の真実ラベルを持つと仮定されている。
毒性の分類のような主観的なタスクは アナテーターの間で 真の不一致につながる
主観的分類タスクのためのテキスト用アノテーション認識表現(AART)を提案する。
論文 参考訳(メタデータ) (2023-11-16T10:18:32Z) - Peering Through Preferences: Unraveling Feedback Acquisition for
Aligning Large Language Models [32.843361525236965]
スパースフィードバックが大規模言語モデルのアライメントと評価に与える影響を解析する。
評価やランク付けの好みは、人間とAIのアノテータの双方で60%と大きく異なっています。
本研究は,言語モデルの現実的有用性を評価する手法において,重要なギャップを浮き彫りにした。
論文 参考訳(メタデータ) (2023-08-30T07:35:32Z) - Perspectives on Large Language Models for Relevance Judgment [56.935731584323996]
大型言語モデル(LLM)は、関連判断を支援することができると主張している。
自動判定が検索システムの評価に確実に利用できるかどうかは不明である。
論文 参考訳(メタデータ) (2023-04-13T13:08:38Z) - Towards Human-Centred Explainability Benchmarks For Text Classification [4.393754160527062]
本稿では,テキスト分類の妥当性を評価するために,テキスト分類ベンチマークを拡張することを提案する。
有効な説明を行う能力について客観的に評価する上での課題について検討する。
我々は、これらのベンチマークを人間中心のアプリケーションに基礎を置くことを提案する。
論文 参考訳(メタデータ) (2022-11-10T09:52:31Z) - Enabling Classifiers to Make Judgements Explicitly Aligned with Human
Values [73.82043713141142]
性差別/人種差別の検出や毒性検出などの多くのNLP分類タスクは、人間の値に基づいている。
本稿では,コマンド内で明示的に記述された人間の値に基づいて予測を行う,値整合型分類のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-14T09:10:49Z) - Noise Audits Improve Moral Foundation Classification [5.7685650619372595]
道徳は文化、アイデンティティ、感情において重要な役割を果たす。
近年の自然言語処理の進歩により、テキストで表される道徳的価値を大規模に分類することが可能であることが示されている。
モラル分類は、テキストのモラル表現をラベル付けするために人間のアノテータに依存している。
論文 参考訳(メタデータ) (2022-10-13T23:37:47Z) - Re-Examining Human Annotations for Interpretable NLP [80.81532239566992]
我々は、Interpretable NLPで広く使われている2つのデータセット上で、クラウドソースのウェブサイトを用いて制御実験を行う。
我々は,異なる資格レベルを満たす人材の募集から得られた注釈結果を比較した。
以上の結果から,アノテーションの品質は労働者の資格に高い影響を受けており,労働者は指示によって特定のアノテーションを提供するように指導することができることがわかった。
論文 参考訳(メタデータ) (2022-04-10T02:27:30Z) - Elephant in the Room: An Evaluation Framework for Assessing Adversarial
Examples in NLP [24.661335236627053]
逆の例は、機械学習モデルが常に誤分類している小さな摂動によって変換された入力である。
本稿では,自動評価指標と人的評価ガイドラインからなる評価フレームワークを提案する。
論文 参考訳(メタデータ) (2020-01-22T00:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。