論文の概要: Do We Still Need Humans in the Loop? Comparing Human and LLM Annotation in Active Learning for Hostility Detection
- arxiv url: http://arxiv.org/abs/2604.13899v2
- Date: Wed, 22 Apr 2026 13:35:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.244868
- Title: Do We Still Need Humans in the Loop? Comparing Human and LLM Annotation in Active Learning for Hostility Detection
- Title(参考訳): ループに人間はいまだ必要か? : ホスト性検出のためのアクティブラーニングにおける人間とLLMアノテーションの比較
- Authors: Ahmad Dawar Hakimi, Lea Hirlimann, Isabelle Augenstein, Hinrich Schütze,
- Abstract要約: アクティブな学習は、無視可能なコストで短いプロンプトから何千ものインスタンスに注釈を付けることができる。
LLMラベルはALループ内で人間のラベルを置き換えることができ、ALはコーパス全体を一度にラベル付けできるときに必要か?
277,902人のドイツの政治的TikTokコメントの新しいデータセットについて、両方の質問を調査した。
- 参考スコア(独自算出の注目度): 68.37351671559675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction-tuned LLMs can annotate thousands of instances from a short prompt at negligible cost. This raises two questions for active learning (AL): can LLM labels replace human labels within the AL loop, and does AL remain necessary when entire corpora can be labelled at once? We investigate both questions on a new dataset of 277,902 German political TikTok comments (25,974 LLM-labelled, 5,000 human-annotated), comparing seven annotation strategies across four encoders to detect anti-immigrant hostility. A classifier trained on 25,974 GPT-5.2 labels (\$43) achieves comparable F1-Macro to one trained on 3,800 human annotations (\$316). Active learning offers little advantage over random sampling in our pre-enriched pool and delivers lower F1 than full LLM annotation at the same cost. However, comparable aggregate F1 masks a systematic difference in error structure: LLM-trained classifiers over-predict the positive class relative to the human gold standard. This divergence concentrates in topically ambiguous discussions where the distinction between anti-immigrant hostility and policy critique is most subtle, suggesting that annotation strategy should be guided not by aggregate F1 alone but by the error profile acceptable for the target application.
- Abstract(参考訳): 命令調整されたLLMは、短いプロンプトから数千のインスタンスを無視可能なコストで注釈付けすることができる。
LLMラベルはALループ内で人間のラベルを置き換えることができ、ALはコーパス全体を一度にラベル付けできるときに必要か?
277,902人のドイツ人政治的TikTokコメント(25,974 LLMラベル付き、5000人の人間注釈付き)の新たなデータセットについて、両質問を調査し、4つのエンコーダ間で7つのアノテーション戦略を比較して、反移民の敵意を検出する。
25,974 GPT-5.2ラベル(43ドル)でトレーニングされた分類器は、3,800人のアノテーション(316ドル)でトレーニングされたものと同等のF1-Macroを達成する。
アクティブな学習は、事前強化されたプールにおけるランダムサンプリングよりもほとんど利点がなく、同じコストでフルLLMアノテーションよりも低いF1を提供する。
しかし、同等の集合F1は、エラー構造の体系的な違いを隠蔽する: LLM訓練された分類器は、人間の金標準に対する正のクラスを過度に予測する。
このばらつきは、アンチ移民の敵意と政策批判の区別が最も微妙なトポロジ的な曖昧な議論に集中しており、アノテーション戦略はF1のみを集約するのではなく、対象のアプリケーションに許容されるエラープロファイルによって導かれるべきであることを示唆している。
関連論文リスト
- Are Multimodal Large Language Models Good Annotators for Image Tagging? [62.01475514488922]
本稿では,MLLMの生成するアノテーションと人間のアノテーションのギャップを分析することを目的とする。
本稿では,MLLM生成アノテーションと人間のアノテーションのギャップを狭めることを目的とした,画像タグ付けのための新しいフレームワークであるTagLLMを提案する。
論文 参考訳(メタデータ) (2026-02-24T14:53:16Z) - Blind to the Human Touch: Overlap Bias in LLM-Based Summary Evaluation [89.52571224447111]
大規模言語モデル(LLM)の判断は、要約のようなタスクのために、伝統的なアルゴリズムベースのメトリクスと併用されることが多い。
要約領域における人書き応答と重なる関数としてLLM判定バイアス分析を提案する。
論文 参考訳(メタデータ) (2026-02-07T19:39:28Z) - Self-reflection in Automated Qualitative Coding: Improving Text Annotation through Secondary LLM Critique [1.5749416770494706]
大規模言語モデル(LLM)は、大規模なデータセットの高度な定性的な符号化を可能にする。
簡単な一般化可能な2段階のワークフローを提示する: LLMは人間設計のコードブックを適用し、二次LPM批評家は各正のラベルに対して自己回帰を行う。
我々は,Apache Software Foundationのプロジェクト評価に関する議論において,3,000件以上の高コンテンツメールに対する6つの定性的なコードに対して,このアプローチを評価した。
論文 参考訳(メタデータ) (2026-01-14T22:27:13Z) - Can LLMs Evaluate What They Cannot Annotate? Revisiting LLM Reliability in Hate Speech Detection [5.731621080995591]
ヘイトスピーチはオンラインで広く普及し、個人やコミュニティを害し、大規模なモデレーションに欠かせない自動検出を可能にしている。
問題の一部は主観性にある: ある人が憎しみの言葉としてフラグを付けることは、別の人が良心と見なすかもしれない。
大規模言語モデル(LLM)は拡張性のあるアノテーションを約束するが、以前の研究では、人間の判断を完全に置き換えることはできないことが示されている。
論文 参考訳(メタデータ) (2025-12-10T14:00:48Z) - Can We Hide Machines in the Crowd? Quantifying Equivalence in LLM-in-the-loop Annotation Tasks [8.246529401043128]
我々は、人間とLLMの両方によるラベル付け決定が、個人間で統計的に評価される方法について検討することを目指している。
Krippendorffの$alpha$, paired bootstrapping, and the Two One-Sided t-Tests (TOST) equivalence test procedureに基づく統計的評価法を開発した。
このアプローチをMovieLens 100K と PolitiFact という2つのデータセットに適用すると、LCM が前者の人間のアノテーションと統計的に区別できないことが分かる。
論文 参考訳(メタデータ) (2025-10-08T05:17:33Z) - Can Reasoning Help Large Language Models Capture Human Annotator Disagreement? [84.32752330104775]
ヒトのアノテーションの変化(つまり不一致)は、NLPでは一般的である。
異なる推論条件が大言語モデルの不一致モデルに与える影響を評価する。
意外なことに、RLVRスタイルの推論は不一致モデリングにおいて性能を低下させる。
論文 参考訳(メタデータ) (2025-06-24T09:49:26Z) - WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。
本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。
我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文 参考訳(メタデータ) (2024-06-19T20:13:42Z) - Active Learning for NLP with Large Language Models [4.1967870107078395]
アクティブラーニング(AL)テクニックは、可能な限り少数のサンプルをラベル付けして、合理的あるいは同様の結果に到達することができる。
本研究では,3つのデータセットにサンプルをラベル付けするためにLLM(Large Language Models)を使用することの正確さとコストについて検討する。
論文 参考訳(メタデータ) (2024-01-14T21:00:52Z) - Enabling Classifiers to Make Judgements Explicitly Aligned with Human
Values [73.82043713141142]
性差別/人種差別の検出や毒性検出などの多くのNLP分類タスクは、人間の値に基づいている。
本稿では,コマンド内で明示的に記述された人間の値に基づいて予測を行う,値整合型分類のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-14T09:10:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。