論文の概要: VariErr NLI: Separating Annotation Error from Human Label Variation
- arxiv url: http://arxiv.org/abs/2403.01931v2
- Date: Thu, 6 Jun 2024 06:18:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 21:02:35.719188
- Title: VariErr NLI: Separating Annotation Error from Human Label Variation
- Title(参考訳): VariErr NLI:人間のラベル変化からアノテーションの誤りを分離する
- Authors: Leon Weber-Genzel, Siyao Peng, Marie-Catherine de Marneffe, Barbara Plank,
- Abstract要約: 系統的手法と新しいデータセットであるVariErr(変分対エラー)を導入する。
VariErr は 500 個の再注釈された MNLI 項目について 1,933 個の説明に対して 7,732 個の妥当性判断を下している。
現状のAID法はGPTと人間を著しく過小評価している。
- 参考スコア(独自算出の注目度): 23.392480595432676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human label variation arises when annotators assign different labels to the same item for valid reasons, while annotation errors occur when labels are assigned for invalid reasons. These two issues are prevalent in NLP benchmarks, yet existing research has studied them in isolation. To the best of our knowledge, there exists no prior work that focuses on teasing apart error from signal, especially in cases where signal is beyond black-and-white. To fill this gap, we introduce a systematic methodology and a new dataset, VariErr (variation versus error), focusing on the NLI task in English. We propose a 2-round annotation procedure with annotators explaining each label and subsequently judging the validity of label-explanation pairs. VariErr contains 7,732 validity judgments on 1,933 explanations for 500 re-annotated MNLI items. We assess the effectiveness of various automatic error detection (AED) methods and GPTs in uncovering errors versus human label variation. We find that state-of-the-art AED methods significantly underperform GPTs and humans. While GPT-4 is the best system, it still falls short of human performance. Our methodology is applicable beyond NLI, offering fertile ground for future research on error versus plausible variation, which in turn can yield better and more trustworthy NLP systems.
- Abstract(参考訳): 人間のラベルのバリエーションは、アノテータが妥当な理由で異なるラベルを同じアイテムに割り当てたときに起こり、一方、ラベルが無効な理由で割り当てられたときにアノテーションエラーが発生する。
これらの2つの問題は、NLPベンチマークでよく見られるが、既存の研究では独立して研究されている。
我々の知る限りでは、特に信号が白黒を超えている場合において、信号からエラーを分離することに焦点を当てた以前の研究は存在しない。
このギャップを埋めるために、体系的な方法論と新しいデータセットであるVariErrを導入し、英語のNLIタスクに焦点を当てた。
本稿では,アノテータが各ラベルを説明し,その後にラベル-説明ペアの有効性を判断する2ラウンドのアノテーション手順を提案する。
VariErr は 500 個の再注釈された MNLI 項目について 1,933 個の説明に対して 7,732 個の妥当性判断を下している。
自動誤り検出(AED)法と GPT 法の有効性について検討した。
現状のAID法はGPTと人間を著しく過小評価している。
GPT-4は最高のシステムですが、それでも人間のパフォーマンスには欠けています。
我々の手法はNLIを超えて適用可能であり、エラーと可算変動に関する将来の研究のための肥大な土台を提供し、それによってより優れた信頼性の高いNLPシステムが得られる。
関連論文リスト
- Robust Assignment of Labels for Active Learning with Sparse and Noisy
Annotations [0.17188280334580192]
監視された分類アルゴリズムは、世界中の多くの現実の問題を解決するために使用される。
残念なことに、多くのタスクに対して良質なアノテーションを取得することは、実際に行うには不可能か、あるいはコストがかかりすぎます。
サンプル空間のラベルのない部分を利用する2つの新しいアノテーション統一アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-25T19:40:41Z) - Ambiguity-Resistant Semi-Supervised Learning for Dense Object Detection [98.66771688028426]
本研究では,一段階検出器のためのAmbiguity-Resistant Semi-supervised Learning (ARSL)を提案する。
擬似ラベルの分類とローカライズ品質を定量化するために,JCE(Joint-Confidence Estimation)を提案する。
ARSLは、曖昧さを効果的に軽減し、MS COCOおよびPASCALVOC上で最先端のSSOD性能を達成する。
論文 参考訳(メタデータ) (2023-03-27T07:46:58Z) - Identifying Label Errors in Object Detection Datasets by Loss Inspection [4.442111891959355]
本稿では,オブジェクト検出データセットにおけるラベル誤り検出手法のベンチマークを紹介する。
そこで本研究では,軌道上でランダムに導入した4種類のラベルエラーと,良好なラベル付きオブジェクト検出データセットの試験セットをシミュレートする。
論文 参考訳(メタデータ) (2023-03-13T10:54:52Z) - Exploiting Completeness and Uncertainty of Pseudo Labels for Weakly
Supervised Video Anomaly Detection [149.23913018423022]
弱教師付きビデオ異常検出は、ビデオレベルのラベルのみを用いて、ビデオ内の異常事象を特定することを目的としている。
2段階の自己学習法は擬似ラベルの自己生成によって著しく改善されている。
本稿では,自己学習のための完全性と不確実性を利用した強化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-08T05:53:53Z) - Dist-PU: Positive-Unlabeled Learning from a Label Distribution
Perspective [89.5370481649529]
本稿では,PU学習のためのラベル分布視点を提案する。
そこで本研究では,予測型と基底型のラベル分布間のラベル分布の整合性を追求する。
提案手法の有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-12-06T07:38:29Z) - Acknowledging the Unknown for Multi-label Learning with Single Positive
Labels [65.5889334964149]
伝統的に、全ての無注釈ラベルは、単一正のマルチラベル学習(SPML)において負のラベルとして仮定される。
本研究では, 予測確率のエントロピーを最大化するエントロピー最大化(EM)損失を提案する。
非通知ラベルの正負ラベル不均衡を考慮し、非対称耐性戦略とより精密な監視を行うセルフペースト手順を備えた非対称擬似ラベル(APL)を提案する。
論文 参考訳(メタデータ) (2022-03-30T11:43:59Z) - Disentangling Sampling and Labeling Bias for Learning in Large-Output
Spaces [64.23172847182109]
異なる負のサンプリングスキームが支配的ラベルと稀なラベルで暗黙的にトレードオフパフォーマンスを示す。
すべてのラベルのサブセットで作業することで生じるサンプリングバイアスと、ラベルの不均衡に起因するデータ固有のラベルバイアスの両方に明示的に対処する統一された手段を提供する。
論文 参考訳(メタデータ) (2021-05-12T15:40:13Z) - Capturing Label Distribution: A Case Study in NLI [19.869498599986006]
予測されたラベルエントロピーに一致する予測されたラベル分布のポストホックスムージングは非常に効果的です。
トレーニングに複数の参照を持つ少数の例を紹介します。
論文 参考訳(メタデータ) (2021-02-13T04:14:31Z) - Pointwise Binary Classification with Pairwise Confidence Comparisons [97.79518780631457]
ペアワイズ比較(Pcomp)分類を提案し、ラベルのないデータのペアしか持たない。
我々はPcomp分類をノイズラベル学習に結びつけて、進歩的UREを開発し、一貫性の正則化を課すことにより改善する。
論文 参考訳(メタデータ) (2020-10-05T09:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。