論文の概要: Can Large Language Models Capture Human Annotator Disagreements?
- arxiv url: http://arxiv.org/abs/2506.19467v1
- Date: Tue, 24 Jun 2025 09:49:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.578322
- Title: Can Large Language Models Capture Human Annotator Disagreements?
- Title(参考訳): 大型言語モデルは人間のアノテーションの分解を捉えることができるか?
- Authors: Jingwei Ni, Yu Fan, Vilém Zouhar, Donya Rooein, Alexander Hoyle, Mrinmaya Sachan, Markus Leippold, Dirk Hovy, Elliott Ash,
- Abstract要約: 大きな言語モデル(LLM)は、人間の労力を減らすために、自動アノテーションにますます使われています。
しかし、これらのモデルが有意な人間のアノテーションの変化も捉えているかどうかはまだ不明である。
我々の研究は、人間のラベルを繰り返すことなく注釈の不一致を予測するLLMの能力を広範囲に評価することで、このギャップに対処する。
- 参考スコア(独自算出の注目度): 84.32752330104775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human annotation variation (i.e., annotation disagreements) is common in NLP and often reflects important information such as task subjectivity and sample ambiguity. While Large Language Models (LLMs) are increasingly used for automatic annotation to reduce human effort, their evaluation often focuses on predicting the majority-voted "ground truth" labels. It is still unclear, however, whether these models also capture informative human annotation variation. Our work addresses this gap by extensively evaluating LLMs' ability to predict annotation disagreements without access to repeated human labels. Our results show that LLMs struggle with modeling disagreements, which can be overlooked by majority label-based evaluations. Notably, while RLVR-style (Reinforcement learning with verifiable rewards) reasoning generally boosts LLM performance, it degrades performance in disagreement prediction. Our findings highlight the critical need for evaluating and improving LLM annotators in disagreement modeling. Code and data at https://github.com/EdisonNi-hku/Disagreement_Prediction.
- Abstract(参考訳): ヒトのアノテーションのバリエーション(つまりアノテーションの不一致)は、NLPでは一般的であり、タスクの主観性やサンプルのあいまいさといった重要な情報を反映することが多い。
大規模言語モデル(LLM)は、人間の努力を減らすために自動アノテーションとして使われることが多いが、その評価は、多数投票された「地下真実」ラベルの予測に重点を置いていることが多い。
しかし、これらのモデルが有意な人間のアノテーションの変化も捉えているかどうかはまだ不明である。
我々の研究は、人間のラベルを繰り返すことなく注釈の不一致を予測するLLMの能力を広範囲に評価することで、このギャップに対処する。
以上の結果から,LLM はモデリングの不一致に苦しむことが明らかとなり,ほとんどのラベルに基づく評価では見落とされがちである。
特に、RLVR-style (Reinforcement learning with verible rewards) 推論は一般的にLLM性能を高めるが、不一致予測では性能が低下する。
この結果から,不一致モデルにおけるLCMアノテータの評価と改善の重要課題が浮き彫りとなった。
https://github.com/EdisonNi-hku/Disagreement_Prediction.comのコードとデータ。
関連論文リスト
- Bridging the Gap: In-Context Learning for Modeling Human Disagreement [8.011316959982654]
大規模言語モデル(LLM)はNLP分類タスクにおいて高い性能を示している。
本研究では,LLMが複数の視点を捉えることができ,ヘイトスピーチや攻撃的言語検出などの主観的タスクにおいてアノテータの不一致を反映できるかどうかを検討する。
論文 参考訳(メタデータ) (2025-06-06T14:24:29Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。