論文の概要: ActiveAED: A Human in the Loop Improves Annotation Error Detection
- arxiv url: http://arxiv.org/abs/2305.20045v1
- Date: Wed, 31 May 2023 17:18:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 15:04:22.558048
- Title: ActiveAED: A Human in the Loop Improves Annotation Error Detection
- Title(参考訳): ActiveAED: ループ内の人間がアノテーションエラー検出を改善する
- Authors: Leon Weber and Barbara Plank
- Abstract要約: 広く使われているベンチマークデータセットでさえ、かなりの数の誤ったアノテーションを含んでいる。
予測ループにおける誤り訂正を人間に繰り返し問い合わせることで、より正確にエラーを検出できるAED手法であるActiveAEDを提案する。
我々は,5つのタスクにまたがる8つのデータセットに対してActiveAEDを評価し,その中の7つのタスクに対して,平均精度で最大6%のアップを達成できることを示す。
- 参考スコア(独自算出の注目度): 22.61786427296688
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Manually annotated datasets are crucial for training and evaluating Natural
Language Processing models. However, recent work has discovered that even
widely-used benchmark datasets contain a substantial number of erroneous
annotations. This problem has been addressed with Annotation Error Detection
(AED) models, which can flag such errors for human re-annotation. However, even
though many of these AED methods assume a final curation step in which a human
annotator decides whether the annotation is erroneous, they have been developed
as static models without any human-in-the-loop component. In this work, we
propose ActiveAED, an AED method that can detect errors more accurately by
repeatedly querying a human for error corrections in its prediction loop. We
evaluate ActiveAED on eight datasets spanning five different tasks and find
that it leads to improvements over the state of the art on seven of them, with
gains of up to six percentage points in average precision.
- Abstract(参考訳): 手動の注釈付きデータセットは自然言語処理モデルのトレーニングと評価に不可欠である。
しかし、最近の研究で、広く使われているベンチマークデータセットでさえ、かなりの数の誤ったアノテーションを含んでいることがわかった。
この問題はアノテーションエラー検出(AED)モデルで対処されており、人間の再アノテーションに対してそのようなエラーをフラグできる。
しかしながら、これらのAEDメソッドの多くは、人間がアノテーションが誤っているかどうかを判断する最終的なキュレーションステップを前提としていますが、それらは静的モデルとして開発されています。
本研究では,予測ループにおける誤り訂正を人間に繰り返し問合せすることにより,誤りをより正確に検出できるaed手法であるactiveaedを提案する。
我々は,5つのタスクにまたがる8つのデータセットに対してActiveAEDを評価し,その中の7つのタスクに対して,平均精度で最大6%のアップを達成できることを示す。
関連論文リスト
- Bayesian Detector Combination for Object Detection with Crowdsourced Annotations [49.43709660948812]
制約のない画像できめ細かなオブジェクト検出アノテーションを取得するのは、時間がかかり、コストがかかり、ノイズに悩まされる。
ノイズの多いクラウドソースアノテーションでオブジェクト検出をより効果的に訓練するための新しいベイズ検出結合(BDC)フレームワークを提案する。
BDCはモデルに依存しず、アノテータのスキルレベルに関する事前の知識を必要とせず、既存のオブジェクト検出モデルとシームレスに統合される。
論文 参考訳(メタデータ) (2024-07-10T18:00:54Z) - XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - Donkii: Can Annotation Error Detection Methods Find Errors in
Instruction-Tuning Datasets? [29.072740239139087]
本稿では,命令チューニングデータ(DONKII)の誤り検出(AED)のための新しいベンチマークを提案する。
これら3つのデータセットには明確な誤りが含まれており、命令調整されたLLMに直接伝播することがある。
この結果から, 正しいAED手法とモデルサイズを選択することは極めて重要であり, 命令調整データのクリーン化にAED手法を用いる方法の実践的提案が導出されることが示唆された。
論文 参考訳(メタデータ) (2023-09-04T15:34:02Z) - MISMATCH: Fine-grained Evaluation of Machine-generated Text with
Mismatch Error Types [68.76742370525234]
テキスト間のきめ細かいミスマッチに基づいて、7つのNLPタスクにおける人間の判断をモデル化する新しい評価手法を提案する。
細粒度評価のためのNLPタスクの最近の取り組みに触発されて,13種類のミスマッチエラータイプを紹介した。
7つのNLPタスクから得られた有意なデータセットの文対間のミスマッチ誤差は,人間の評価とよく一致している。
論文 参考訳(メタデータ) (2023-06-18T01:38:53Z) - Contrastive Error Attribution for Finetuned Language Models [35.80256755393739]
ノイズと誤記のデータは、自然言語生成(NLG)タスクにおける幻覚と不誠実なアウトプットの中核的な原因である。
望ましくないアウトプットにつながる低品質のトレーニングインスタンスを特定し、削除するフレームワークを導入します。
本研究では、勾配に基づく影響尺度のような既存の誤差追跡手法は、忠実度誤差を検出するために確実に機能しないことを示す。
論文 参考訳(メタデータ) (2022-12-21T02:28:07Z) - Improving Named Entity Recognition in Telephone Conversations via
Effective Active Learning with Human in the Loop [2.1004132913758267]
我々は、ループ学習における人間を活用したアクティブラーニングフレームワークを提案し、アノテーション付きデータセットからデータサンプルを同定し、再アノテーションを行う。
データセット全体の6%のトレーニングインスタンスを再注釈することで、特定のエンティティタイプに対するF1スコアを約25%改善することができる。
論文 参考訳(メタデータ) (2022-11-02T17:55:04Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z) - Effect of Annotation Errors on Drone Detection with YOLOv3 [14.519138724931446]
本研究では,物体検出問題に対する異なる種類のアノテーション誤差をシミュレートし,一般的な最先端物体検出装置であるYOLOv3の性能について検討する。
CVPR-2020 Anti-UAV Challengeデータセットにおける必然的アノテーションエラーについても,この方法で検討した。
論文 参考訳(メタデータ) (2020-04-02T15:06:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。