論文の概要: Using Natural Language Explanations to Rescale Human Judgments
- arxiv url: http://arxiv.org/abs/2305.14770v2
- Date: Tue, 14 Nov 2023 18:30:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 19:04:33.260454
- Title: Using Natural Language Explanations to Rescale Human Judgments
- Title(参考訳): 自然言語による人間の判断の再現
- Authors: Manya Wadhwa, Jifan Chen, Junyi Jessy Li, Greg Durrett
- Abstract要約: 大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
- 参考スコア(独自算出の注目度): 89.21530406247142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of large language models (LLMs) has brought a critical need for
high-quality human-labeled data, particularly for processes like human feedback
and evaluation. A common practice is to label data via consensus annotation
over crowdworker judgments. However, annotators' judgments for subjective tasks
can differ in many ways: they may have different qualitative judgments about an
example, and they may map those to a labeling scheme in different ways. We show
that these nuances can be captured by natural language explanations, and
propose a method to rescale ordinal annotations and explanations using LLMs.
Specifically, we feed annotators' Likert ratings and corresponding explanations
into an LLM and prompt it to produce a numeric score anchored in a scoring
rubric. These scores should reflect the annotators' underlying assessments of
the example. The rubric can be designed or modified after annotation, and
include distinctions that may not have been known when the original error
taxonomy was devised. We explore our technique in the context of rating system
outputs for a document-grounded question answering task, where LLMs achieve
near-human performance. Our method rescales the raw judgments without impacting
agreement and brings the scores closer to human judgments grounded in the same
scoring rubric.
- Abstract(参考訳): 大規模言語モデル(llm)の台頭は、高品質な人間ラベルデータ、特に人間のフィードバックや評価のようなプロセスに対する重要な要求をもたらした。
一般的なプラクティスは、クラウドワーカーの判断に対してコンセンサスアノテーションを通じてデータをラベル付けることだ。
しかし、主観的タスクに対する注釈者の判断は、例について異なる質的判断を持つ可能性や、異なる方法でラベル付けスキームにマッピングする可能性など、様々な方法で異なる可能性がある。
本稿では,これらのニュアンスを自然言語による説明によって捉えることができ,llmを用いて順序アノテーションや説明をリスケールする方法を提案する。
具体的には、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコアリングルーリックに固定された数値スコアを生成する。
これらのスコアは、アノテーションの例に対する基礎的な評価を反映すべきである。
このルーブリックはアノテーションの後に設計したり修正したりすることができ、本来の誤り分類が考案された時点では知られていなかったような区別も含む。
我々は,LLMが人間に近い性能を達成できる文書地上質問応答タスクにおいて,評価システム出力の文脈において,我々の手法を探求する。
提案手法は,生の判断を合意に影響を与えずに再スケールし,同じスコアルブリックに接する人間の判断にスコアを近づける。
関連論文リスト
- Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Capturing Perspectives of Crowdsourced Annotators in Subjective Learning
Tasks [9.654024757018984]
ほとんどの分類モデルでは、各データポイントに対して単一の真実ラベルを持つと仮定されている。
毒性の分類のような主観的なタスクは アナテーターの間で 真の不一致につながる
主観的分類タスクのためのテキスト用アノテーション認識表現(AART)を提案する。
論文 参考訳(メタデータ) (2023-11-16T10:18:32Z) - Peering Through Preferences: Unraveling Feedback Acquisition for
Aligning Large Language Models [32.843361525236965]
スパースフィードバックが大規模言語モデルのアライメントと評価に与える影響を解析する。
評価やランク付けの好みは、人間とAIのアノテータの双方で60%と大きく異なっています。
本研究は,言語モデルの現実的有用性を評価する手法において,重要なギャップを浮き彫りにした。
論文 参考訳(メタデータ) (2023-08-30T07:35:32Z) - Not All Metrics Are Guilty: Improving NLG Evaluation with LLM
Paraphrasing [92.17776245159622]
Para-Refは、参照数を増やして評価ベンチマークを強化する新しい方法である。
我々は,大規模言語モデル(LLM)を用いて,単一の参照を多種多様な表現で複数の高品質なものに表現する。
提案手法は, 自動評価値16の相関を+7.82%の比率で効果的に改善することができる。
論文 参考訳(メタデータ) (2023-05-24T11:53:29Z) - Perspectives on Large Language Models for Relevance Judgment [56.935731584323996]
大型言語モデル(LLM)は、関連判断を支援することができると主張している。
自動判定が検索システムの評価に確実に利用できるかどうかは不明である。
論文 参考訳(メタデータ) (2023-04-13T13:08:38Z) - Towards Human-Centred Explainability Benchmarks For Text Classification [4.393754160527062]
本稿では,テキスト分類の妥当性を評価するために,テキスト分類ベンチマークを拡張することを提案する。
有効な説明を行う能力について客観的に評価する上での課題について検討する。
我々は、これらのベンチマークを人間中心のアプリケーションに基礎を置くことを提案する。
論文 参考訳(メタデータ) (2022-11-10T09:52:31Z) - Enabling Classifiers to Make Judgements Explicitly Aligned with Human
Values [73.82043713141142]
性差別/人種差別の検出や毒性検出などの多くのNLP分類タスクは、人間の値に基づいている。
本稿では,コマンド内で明示的に記述された人間の値に基づいて予測を行う,値整合型分類のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-14T09:10:49Z) - Noise Audits Improve Moral Foundation Classification [5.7685650619372595]
道徳は文化、アイデンティティ、感情において重要な役割を果たす。
近年の自然言語処理の進歩により、テキストで表される道徳的価値を大規模に分類することが可能であることが示されている。
モラル分類は、テキストのモラル表現をラベル付けするために人間のアノテータに依存している。
論文 参考訳(メタデータ) (2022-10-13T23:37:47Z) - Re-Examining Human Annotations for Interpretable NLP [80.81532239566992]
我々は、Interpretable NLPで広く使われている2つのデータセット上で、クラウドソースのウェブサイトを用いて制御実験を行う。
我々は,異なる資格レベルを満たす人材の募集から得られた注釈結果を比較した。
以上の結果から,アノテーションの品質は労働者の資格に高い影響を受けており,労働者は指示によって特定のアノテーションを提供するように指導することができることがわかった。
論文 参考訳(メタデータ) (2022-04-10T02:27:30Z) - Elephant in the Room: An Evaluation Framework for Assessing Adversarial
Examples in NLP [24.661335236627053]
逆の例は、機械学習モデルが常に誤分類している小さな摂動によって変換された入力である。
本稿では,自動評価指標と人的評価ガイドラインからなる評価フレームワークを提案する。
論文 参考訳(メタデータ) (2020-01-22T00:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。