論文の概要: Who Annotates in NLP? A Large-scale Assessment of Human Annotation Reporting between 2018 and 2025
- arxiv url: http://arxiv.org/abs/2606.02255v1
- Date: Mon, 01 Jun 2026 13:43:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.181944
- Title: Who Annotates in NLP? A Large-scale Assessment of Human Annotation Reporting between 2018 and 2025
- Title(参考訳): NLPに誰が注釈を付けるか : 2018年から2025年の間に報告された人間の注釈の大規模評価
- Authors: Maria Kunilovskaya, Gagan Bhatia, Lisa Sophie Albertelli, Yanran Chen, Christian Greisinger, Lotta Kiefer, Christoph Leiter, Subhadeep Roy, Tewodros Achamaleh, Muhammad Arslan Manzoor, Sebastian Pohl, Yufang Hou, Steffen Eger,
- Abstract要約: 主要なNLP会場にまたがるヒューマンアノテーションレポートの大規模・タスクレベルの監査を行う。
アノテーションレポートの実践を統一した分類法を導入し,LLM支援抽出パイプラインの有効性を検証した。
以上の結果から,NLPのアノテーション報告は時間とともに改善したが,まだ不均一であることが明らかとなった。
- 参考スコア(独自算出の注目度): 27.03245242280755
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Human annotation is the empirical foundation of much NLP research, from dataset construction to model evaluation, but papers often leave unclear who produced the annotations and how the annotation process was controlled. We provide the first large-scale, task-level audit of human annotation reporting across major NLP venues, asking which annotation details are documented, which are missing, and how reporting varies across time, topic, venue, and intended use of human judgment. We introduce a unified taxonomy of annotation-reporting practices and validate an LLM-assisted extraction pipeline against Annotated-gold, a human-adjudicated gold standard of 41 papers and 72 annotation tasks, where the best model reaches human-comparable agreement with adjudicated labels, with Krippendorff's alpha of 0.606 versus 0.585 for human-human agreement. Using this pipeline, we construct Annotated-llm, a dataset covering ACL-venue papers from 2018-2025, with 2,667 extracted annotation tasks from 1,603 papers, and find that papers frequently report operational details such as recruitment strategies, annotator expertise, and annotation volume, but often omit details needed to assess annotation validity, including training, language proficiency, compensation, socio-demographics, adjudication, and agreement values, especially in model-evaluation studies. Our results show that annotation reporting in NLP has improved over time but remains uneven, and they establish a scalable framework and bare-minimum reporting recommendations for making human annotation more reliable, reproducible, and interpretable.
- Abstract(参考訳): 人間のアノテーションはデータセットの構築からモデル評価まで、多くのNLP研究の実証的な基盤となっているが、どのアノテーションを作成したのか、どのようにアノテーションプロセスが制御されたのか、論文はよくわからない。
我々は,主要なNLP会場におけるヒューマンアノテーションレポートの大規模かつタスクレベルの監査を行い,どのアノテーションの詳細が文書化されているのか,どのアノテーションが欠落しているか,報告が時間,話題,会場,意図された人的判断の使用によってどのように変化するのかを問う。
本研究は, 注釈報告手法を統一した分類法を導入し, 人為的ゴールド標準である Annotated-gold と 72 のアノテーションタスクに対する LLM 支援抽出パイプラインの有効性を検証した。
このパイプラインを用いて、2018-2025年のACL-venue論文をカバーするデータセットAnnotated-llmを構築し、1,603論文から2,667件のアノテーションタスクを抽出し、採用戦略、アノテーション専門知識、アノテーションボリュームなどの運用詳細を頻繁に報告するが、特にモデル評価研究において、トレーニング、言語習熟度、補償、社会デモグラフィー、判断、合意値など、アノテーションの妥当性を評価するために必要な詳細を省略することが多い。
以上の結果から,NLPのアノテーションレポートは時間とともに改善したものの,不均一なままであり,人間のアノテーションをより信頼性,再現性,解釈可能なものにするための,スケーラブルなフレームワークと最小限のレポートレコメンデーションを確立した。
関連論文リスト
- ReasonScaffold: A Scaffolded Reasoning-based Annotation Protocol for Human-AI Co-Annotation [2.5819252531158683]
textbfReasonScaffoldは、予測ラベルを保ちながらLLM生成の説明を公開するための足場付き推論アノテーションプロトコルである。
本研究では,アノテート精度を評価するよりも,人間のアノテート行動が制御された環境でのアノテート行動にどのように影響するかを検討する。
本研究の結果から, 推論への露出は, 一致度の増加と最小限の修正と結びついており, 広範囲な変化を招くことなく, 曖昧な症例の解決に有効であることが示唆された。
論文 参考訳(メタデータ) (2026-03-22T07:14:27Z) - Beyond "Not Novel Enough": Enriching Scholarly Critique with LLM-Assisted Feedback [81.0031690510116]
本稿では,3段階を通して専門家レビューアの動作をモデル化する,自動ノベルティ評価のための構造化アプローチを提案する。
本手法は,人文のノベルティレビューを大規模に分析した結果から得られたものである。
182 ICLR 2025 の提出で評価されたこの手法は、人間の推論と86.5%の一致と、新規性の結論に関する75.3%の合意を達成している。
論文 参考訳(メタデータ) (2025-08-14T16:18:37Z) - How Humans Help LLMs: Assessing and Incentivizing Human Preference Annotators [8.244694683982784]
我々は,人間のアノテーションの性能を評価し,高品質なアノテーションを提供することにインセンティブを与えるという課題について検討する。
我々は,企業とアノテータの挙動と相互作用を特徴付けるプリンシパルエージェントモデルを開発した。
このモデルは、双方に利益をもたらすアノテータをインセンティブ化するボーナススキームの実践的なメカニズムを合理化する。
論文 参考訳(メタデータ) (2025-02-10T12:15:27Z) - FABLES: Evaluating faithfulness and content selection in book-length summarization [55.50680057160788]
本稿では,本書の忠実度と内容選択の大規模評価を行う。
LLMが生成した26冊のサマリーで作成した3,158冊の注釈のデータセットであるFABLESを5.2KUSDで収集する。
注釈の分析によると、ほとんどの不誠実な主張は出来事や登場人物の状態に関係しており、物語を無効にするために間接的推論を必要とする。
論文 参考訳(メタデータ) (2024-04-01T17:33:38Z) - LongEval: Guidelines for Human Evaluation of Faithfulness in Long-form
Summarization [48.02158981582502]
LongEvalは、長文要約における人間の忠実性評価のためのガイドラインのセットである。
異なる領域における2つの長文要約データセットのアノテーション研究にLongEvalをデプロイする。
論文 参考訳(メタデータ) (2023-01-30T21:31:48Z) - Active Learning for Abstractive Text Summarization [50.79416783266641]
本稿では,抽象テキスト要約におけるアクティブラーニングのための最初の効果的なクエリ戦略を提案する。
ALアノテーションにおける私たちの戦略は、ROUGEと一貫性スコアの点からモデル性能を向上させるのに役立ちます。
論文 参考訳(メタデータ) (2023-01-09T10:33:14Z) - Re-Examining Human Annotations for Interpretable NLP [80.81532239566992]
我々は、Interpretable NLPで広く使われている2つのデータセット上で、クラウドソースのウェブサイトを用いて制御実験を行う。
我々は,異なる資格レベルを満たす人材の募集から得られた注釈結果を比較した。
以上の結果から,アノテーションの品質は労働者の資格に高い影響を受けており,労働者は指示によって特定のアノテーションを提供するように指導することができることがわかった。
論文 参考訳(メタデータ) (2022-04-10T02:27:30Z) - Partially Supervised Named Entity Recognition via the Expected Entity
Ratio Loss [2.9176780332337486]
我々は,エンティティアノテーションが欠落している状況下で,エンティティ認識者という名前の学習を研究する。
我々は、体系的に欠落したタグの存在下でモデルを学ぶために、新しい損失である期待されたエンティティ比を提案する。
提案手法は理論的に健全であり,実証的に有用であることを示す。
論文 参考訳(メタデータ) (2021-08-16T16:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。