論文の概要: Can LLMs Evaluate What They Cannot Annotate? Revisiting LLM Reliability in Hate Speech Detection
- arxiv url: http://arxiv.org/abs/2512.09662v1
- Date: Wed, 10 Dec 2025 14:00:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.542634
- Title: Can LLMs Evaluate What They Cannot Annotate? Revisiting LLM Reliability in Hate Speech Detection
- Title(参考訳): LLMは注釈付けできないものを評価することができるか? ヘイトスピーチ検出におけるLCMの信頼性を再考する
- Authors: Paloma Piot, David Otero, Patricia Martín-Rodilla, Javier Parapar,
- Abstract要約: ヘイトスピーチはオンラインで広く普及し、個人やコミュニティを害し、大規模なモデレーションに欠かせない自動検出を可能にしている。
問題の一部は主観性にある: ある人が憎しみの言葉としてフラグを付けることは、別の人が良心と見なすかもしれない。
大規模言語モデル(LLM)は拡張性のあるアノテーションを約束するが、以前の研究では、人間の判断を完全に置き換えることはできないことが示されている。
- 参考スコア(独自算出の注目度): 5.731621080995591
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Hate speech spreads widely online, harming individuals and communities, making automatic detection essential for large-scale moderation, yet detecting it remains difficult. Part of the challenge lies in subjectivity: what one person flags as hate speech, another may see as benign. Traditional annotation agreement metrics, such as Cohen's $κ$, oversimplify this disagreement, treating it as an error rather than meaningful diversity. Meanwhile, Large Language Models (LLMs) promise scalable annotation, but prior studies demonstrate that they cannot fully replace human judgement, especially in subjective tasks. In this work, we reexamine LLM reliability using a subjectivity-aware framework, cross-Rater Reliability (xRR), revealing that even under fairer lens, LLMs still diverge from humans. Yet this limitation opens an opportunity: we find that LLM-generated annotations can reliably reflect performance trends across classification models, correlating with human evaluations. We test this by examining whether LLM-generated annotations preserve the relative ordering of model performance derived from human evaluation (i.e. whether models ranked as more reliable by human annotators preserve the same order when evaluated with LLM-generated labels). Our results show that, although LLMs differ from humans at the instance level, they reproduce similar ranking and classification patterns, suggesting their potential as proxy evaluators. While not a substitute for human annotators, they might serve as a scalable proxy for evaluation in subjective NLP tasks.
- Abstract(参考訳): ヘイトスピーチはオンラインに広まり、個人やコミュニティを害し、大規模なモデレーションに欠かせない自動検出を実現する。
問題の一部は主観性にある: ある人が憎しみの言葉としてフラグを付けることは、別の人が良心と見なすかもしれない。
コーエンのκ$のような伝統的なアノテーション合意のメトリクスは、この不一致を単純化し、意味のある多様性ではなくエラーとして扱う。
一方、LLM(Large Language Models)は拡張性のあるアノテーションを約束するが、以前の研究では、特に主観的なタスクにおいて、人間の判断を完全に置き換えることはできないことが示されている。
本研究では、主観性に配慮したフレームワークであるクロスレータ信頼性(xRR)を用いて、LLMの信頼性を再検討する。
しかし、この制限は機会を開き、LLM生成アノテーションは、人間の評価に関連する分類モデル全体のパフォーマンストレンドを確実に反映できることがわかった。
LLM生成アノテーションが人間の評価から得られたモデル性能の相対的な順序を保っているか(つまり、人間のアノテータによってより信頼性の高いモデルがLLM生成ラベルで評価した場合に同じ順序を保っているかどうか)を調べることで、これを検証する。
以上の結果から,LLMは人間とインスタンスレベルで異なるが,類似のランキングや分類パターンを再現し,プロキシ評価を行う可能性が示唆された。
人間のアノテーションの代わりにはならないが、主観的なNLPタスクの評価のためのスケーラブルなプロキシとして機能する。
関連論文リスト
- Can Reasoning Help Large Language Models Capture Human Annotator Disagreement? [84.32752330104775]
ヒトのアノテーションの変化(つまり不一致)は、NLPでは一般的である。
異なる推論条件が大言語モデルの不一致モデルに与える影響を評価する。
意外なことに、RLVRスタイルの推論は不一致モデリングにおいて性能を低下させる。
論文 参考訳(メタデータ) (2025-06-24T09:49:26Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。