論文の概要: Consistency is Key: Disentangling Label Variation in Natural Language
Processing with Intra-Annotator Agreement
- arxiv url: http://arxiv.org/abs/2301.10684v1
- Date: Wed, 25 Jan 2023 16:38:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-26 14:53:32.136403
- Title: Consistency is Key: Disentangling Label Variation in Natural Language
Processing with Intra-Annotator Agreement
- Title(参考訳): 一貫性が鍵 自然言語処理におけるラベル変動とアノテーション内合意
- Authors: Gavin Abercrombie and Verena Rieser and Dirk Hovy
- Abstract要約: 我々は,ラベルの安定性を経時的に測定するために,アノテーション内合意の付加的利用を論じる。
これらの尺度の計算は、重要な品質管理として機能し、アノテータが反対する理由に関する洞察を与えることができる。
- 参考スコア(独自算出の注目度): 27.02826389254995
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We commonly use agreement measures to assess the utility of judgements made
by human annotators in Natural Language Processing (NLP) tasks. While
inter-annotator agreement is frequently used as an indication of label
reliability by measuring consistency between annotators, we argue for the
additional use of intra-annotator agreement to measure label stability over
time. However, in a systematic review, we find that the latter is rarely
reported in this field. Calculating these measures can act as important quality
control and provide insights into why annotators disagree. We propose
exploratory annotation experiments to investigate the relationships between
these measures and perceptions of subjectivity and ambiguity in text items.
- Abstract(参考訳): 我々は、自然言語処理(nlp)タスクにおける人間の注釈者による判断の有用性を評価するために、合意尺度を用いる。
アノテーション間合意は,アノテーション間の一貫性を計測することでラベル信頼性の指標としてよく用いられるが,ラベルの安定性を経時的に測定するためのアノテーション間合意の付加的利用については議論する。
しかし、体系的なレビューでは、後者がこの分野で報告されることはめったにない。
これらの尺度の計算は、重要な品質管理として機能し、アノテーションが反対する理由に関する洞察を与えることができる。
本研究では,これらの尺度とテキスト項目の主観性と曖昧さの認識との関係を探索的アノテーション実験により検討する。
関連論文リスト
- Towards an Improved Metric for Evaluating Disentangled Representations [0.6946415403594184]
切り離された表現学習は、表現を制御可能、解釈可能、転送可能にする上で重要な役割を果たす。
領域におけるその重要性にもかかわらず、信頼性と一貫した量的絡み合い計量の探求は依然として大きな課題である。
そこで本稿では, 直感的概念の強調と係数-符号関係の改善を生かしたemphEDIという測度を導入することにより, 絡み合いの定量化のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2024-10-04T00:32:59Z) - Context Does Matter: Implications for Crowdsourced Evaluation Labels in Task-Oriented Dialogue Systems [57.16442740983528]
クラウドソースラベルは、タスク指向の対話システムを評価する上で重要な役割を果たす。
従来の研究では、アノテーションプロセスで対話コンテキストの一部だけを使用することが提案されている。
本研究では,対話文脈がアノテーション品質に及ぼす影響について検討する。
論文 参考訳(メタデータ) (2024-04-15T17:56:39Z) - Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。
実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。
我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文 参考訳(メタデータ) (2023-08-28T03:03:03Z) - Closing the Loop: Testing ChatGPT to Generate Model Explanations to
Improve Human Labelling of Sponsored Content on Social Media [4.322339935902437]
世界中の規制団体は、ソーシャルメディア上のインフルエンサーマーケティングの透明性を確保するための努力を強化している。
スポンサーコンテンツを自動的に検出するタスクは、このような規制を大規模に監視し、実施することを目的としている。
本稿では,tagGPTを用いてアノテーションプロセスを拡張し,関連する特徴や簡潔な説明文として認識するフレーズを提案する。
論文 参考訳(メタデータ) (2023-06-08T11:29:58Z) - SWING: Balancing Coverage and Faithfulness for Dialogue Summarization [67.76393867114923]
本稿では,自然言語推論(NLI)モデルを用いて,事実の不整合を回避し,カバレッジを向上させることを提案する。
我々は、NLIを用いて詳細なトレーニング信号を計算し、モデルがカバーされていない参照サマリーのコンテンツを生成することを奨励する。
DialogSumおよびSAMSumデータセットの実験により,提案手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-01-25T09:33:11Z) - Learning Ambiguity from Crowd Sequential Annotations [1.370633147306388]
多くのクラウドソーシング学習手法は、アノテータ間の不一致をノイズラベリングとして扱う。
本稿では,信頼性アノテータ間の相違を検討するために,クラウドシークエンシャルsからの学習あいまい性(Learning Ambiguity)というフレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-04T12:53:56Z) - Measuring the Measuring Tools: An Automatic Evaluation of Semantic
Metrics for Text Corpora [5.254054636427663]
テキストコーパス間の意味的類似性を比較する能力は、さまざまな自然言語処理アプリケーションにおいて重要である。
本稿では,コーパスレベルの意味的類似度指標の特性を評価するための,自動的かつ解釈可能な尺度を提案する。
論文 参考訳(メタデータ) (2022-11-29T14:47:07Z) - Consultation Checklists: Standardising the Human Evaluation of Medical
Note Generation [58.54483567073125]
本稿では,コンサルテーションチェックリストの評価を基礎として,客観性向上を目的としたプロトコルを提案する。
このプロトコルを用いた最初の評価研究において,アノテータ間合意の良好なレベルを観察した。
論文 参考訳(メタデータ) (2022-11-17T10:54:28Z) - Evaluation of Latent Space Disentanglement in the Presence of
Interdependent Attributes [78.8942067357231]
深層生成モデルによる制御可能な音楽生成は, ゆがみ学習技術にますます依存している。
セマンティック属性間の固有関係を考慮に入れたMIGのドロップイン代替として,依存性を考慮した情報メトリクスを提案する。
論文 参考訳(メタデータ) (2021-10-11T20:01:14Z) - Pareto Probing: Trading Off Accuracy for Complexity [87.09294772742737]
我々は,プローブの複雑性と性能の基本的なトレードオフを反映したプローブ計量について論じる。
係り受け解析による実験により,文脈表現と非文脈表現の統語的知識の幅広いギャップが明らかとなった。
論文 参考訳(メタデータ) (2020-10-05T17:27:31Z) - Aligning Intraobserver Agreement by Transitivity [1.0152838128195467]
我々は、アノテータの整合性やアノテータのオブザーバ内合意(IA)を計測する新しい手法を提案する。
提案手法は、合理的意思決定の文脈で徹底的に研究されている推移性に基づく。
論文 参考訳(メタデータ) (2020-09-29T09:55:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。