Fugu-MT 論文翻訳(概要): Counting on Consensus: Selecting the Right Inter-annotator Agreement Metric for NLP Annotation and Evaluation

論文の概要: Counting on Consensus: Selecting the Right Inter-annotator Agreement Metric for NLP Annotation and Evaluation

arxiv url: http://arxiv.org/abs/2603.06865v1
Date: Fri, 06 Mar 2026 20:33:35 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-10 15:13:13.286691
Title: Counting on Consensus: Selecting the Right Inter-annotator Agreement Metric for NLP Annotation and Evaluation
Title（参考訳）: コンセンサスのカウント:NLPアノテーションと評価のための右アノテータ間合意基準の選択
Authors: Joseph James,
Abstract要約: 本稿では,NLPおよび関連分野にまたがって,IAA(Inter-Annotator Agreement)がいかに概念化され,適用されてきたかを概説する。本稿では,タスクタイプによる合意措置を整理し,ラベルの不均衡やデータ不足などの要因が信頼性評価に与える影響について論じる。本論文は,NLPにおける合意事項の選択と解釈のためのガイドとして,より一貫性と再現性のある人間のアノテーションと評価を促進することを目的としている。
参考スコア（独自算出の注目度）: 0.12691047660244334
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Human annotation remains the foundation of reliable and interpretable data in Natural Language Processing (NLP). As annotation and evaluation tasks continue to expand, from categorical labelling to segmentation, subjective judgment, and continuous rating, measuring agreement between annotators has become increasingly more complex. This paper outlines how inter-annotator agreement (IAA) has been conceptualised and applied across NLP and related disciplines, describing the assumptions and limitations of common approaches. We organise agreement measures by task type and discuss how factors such as label imbalance and missing data influence reliability estimates. In addition, we highlight best practices for clear and transparent reporting, including the use of confidence intervals and the analysis of disagreement patterns. The paper aims to serve as a guide for selecting and interpreting agreement measures, promoting more consistent and reproducible human annotation and evaluation in NLP.
Abstract（参考訳）: 人間のアノテーションは、自然言語処理(NLP)における信頼性と解釈可能なデータの基礎のままである。アノテーションと評価タスクが、分類的ラベリングからセグメンテーション、主観的判断、継続的な評価に至るまで拡大し続けており、アノテータ間の合意の測定はますます複雑になっている。本稿では, 共通アプローチの前提と限界を概説し, NLPおよび関連分野にまたがってIAA(Inter-Annotator Agreement)がいかに概念化され, 適用されてきたかを概説する。本稿では,タスクタイプによる合意措置を整理し,ラベルの不均衡やデータ不足などの要因が信頼性評価に与える影響について論じる。さらに,信頼区間の利用や不一致パターンの分析など,明瞭で透明な報告のベストプラクティスを強調した。本論文は,NLPにおける合意事項の選択と解釈のためのガイドとして,より一貫性と再現性のある人間のアノテーションと評価を促進することを目的としている。

関連論文リスト

Beyond Consensus: Perspectivist Modeling and Evaluation of Annotator Disagreement in NLP [25.097081181685613]
アノテーションの不一致は、特に毒性の検出やスタンス分析のような主観的で曖昧なタスクに対して、NLPで広く見られる。まず、データ、タスク、アノテータ要素にまたがる不一致の原因のドメインに依存しない分類を提示する。次に,予測対象とプール構造によって定義された共通フレームワークを用いてモデリング手法を合成する。
論文参考訳（メタデータ） (2026-01-14T01:26:29Z)
FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。 FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文参考訳（メタデータ） (2024-03-04T17:57:18Z)
Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文参考訳（メタデータ） (2023-08-28T03:03:03Z)
Consistency is Key: Disentangling Label Variation in Natural Language Processing with Intra-Annotator Agreement [27.544745748225363]
ラベルの安定性(およびアノテータの整合性)を経時的に測定するために、アノテータ内合意が加わったことを議論する。これらの尺度の計算は、重要な品質管理として機能し、アノテータが反対する理由に関する洞察を与えることができる。
論文参考訳（メタデータ） (2023-01-25T16:38:11Z)
SWING: Balancing Coverage and Faithfulness for Dialogue Summarization [67.76393867114923]
本稿では,自然言語推論(NLI)モデルを用いて,事実の不整合を回避し,カバレッジを向上させることを提案する。我々は、NLIを用いて詳細なトレーニング信号を計算し、モデルがカバーされていない参照サマリーのコンテンツを生成することを奨励する。 DialogSumおよびSAMSumデータセットの実験により,提案手法の有効性が確認された。
論文参考訳（メタデータ） (2023-01-25T09:33:11Z)
A Training-free and Reference-free Summarization Evaluation Metric via Centrality-weighted Relevance and Self-referenced Redundancy [60.419107377879925]
トレーニング不要かつ参照不要な要約評価指標を提案する。我々の測定基準は、集中度重み付き関連度スコアと自己参照冗長度スコアからなる。提案手法は,複数文書と単一文書の要約評価において,既存の手法よりも大幅に優れる。
論文参考訳（メタデータ） (2021-06-26T05:11:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。