論文の概要: Analyzing Dataset Annotation Quality Management in the Wild
- arxiv url: http://arxiv.org/abs/2307.08153v1
- Date: Sun, 16 Jul 2023 21:22:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 15:12:01.522650
- Title: Analyzing Dataset Annotation Quality Management in the Wild
- Title(参考訳): 野生におけるデータセットアノテーションの品質管理の分析
- Authors: Jan-Christoph Klie, Richard Eckart de Castilho, Iryna Gurevych
- Abstract要約: 最先端モデルのトレーニングと評価に使用される一般的なデータセットでさえ、間違った量のアノテーション、バイアス、あるいはアノテーションのアーティファクトを含んでいる。
文献に記載されているように,まず,データセット作成のための推奨品質管理プラクティスを調査し,要約する。
我々は、テキストデータセットを導入した591の学術出版物のコーパスをコンパイルし、アノテータ管理、合意、判断、データ検証などの品質関連の側面に注釈を付ける。
- 参考スコア(独自算出の注目度): 61.60284787473162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data quality is crucial for training accurate, unbiased, and trustworthy
machine learning models and their correct evaluation. Recent works, however,
have shown that even popular datasets used to train and evaluate
state-of-the-art models contain a non-negligible amount of erroneous
annotations, bias or annotation artifacts. There exist best practices and
guidelines regarding annotation projects. But to the best of our knowledge, no
large-scale analysis has been performed as of yet on how quality management is
actually conducted when creating natural language datasets and whether these
recommendations are followed. Therefore, we first survey and summarize
recommended quality management practices for dataset creation as described in
the literature and provide suggestions on how to apply them. Then, we compile a
corpus of 591 scientific publications introducing text datasets and annotate it
for quality-related aspects, such as annotator management, agreement,
adjudication or data validation. Using these annotations, we then analyze how
quality management is conducted in practice. We find that a majority of the
annotated publications apply good or very good quality management. However, we
deem the effort of 30% of the works as only subpar. Our analysis also shows
common errors, especially with using inter-annotator agreement and computing
annotation error rates.
- Abstract(参考訳): データ品質は、正確で偏りのない、信頼できる機械学習モデルとその正しい評価のトレーニングに不可欠である。
しかし、近年の研究では、最先端モデルのトレーニングや評価に使用される一般的なデータセットでさえ、誤ったアノテーションやバイアス、アノテーションアーティファクトを不要に含んでいることが示されている。
アノテーションプロジェクトにはベストプラクティスとガイドラインがあります。
しかし、私たちの知る限りでは、自然言語データセット作成時の品質管理の実施方法や、これらの推奨事項が従うかどうかについて、まだ大規模な分析が行われていません。
そこで本論文では,まず,データセット作成のための推奨品質管理プラクティスを調査し,その適用方法について提案する。
そして,テキストデータセットを導入した591の学術出版物のコーパスをコンパイルし,アノテータ管理,合意,判断,データ検証などの品質関連側面に注釈を付ける。
次に,これらのアノテーションを用いて品質管理の実施方法を分析する。
注釈付き出版物の大半は、良質または非常に良質な管理を施している。
しかし、我々は作品の30%の努力が不足しているとみなしている。
また,本分析では,特にアノテーション間一致と演算誤り率を用いて,一般的な誤りを示す。
関連論文リスト
- QuRating: Selecting High-Quality Data for Training Language Models [64.83332850645074]
データ品質に関する人間の直感をキャプチャできる事前学習データを選択するQuRatingを導入する。
本稿では,書体,専門知識,事実とトリビア,教育的価値の4つの特性について検討する。
ペアの判断からスカラー評価を学習するためにQurモデルをトレーニングし、それを4つの基準ごとに品質評価付き260Bのトレーニングコーパスにアノテートするために使用します。
論文 参考訳(メタデータ) (2024-02-15T06:36:07Z) - One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - A Novel Metric for Measuring Data Quality in Classification Applications
(extended version) [0.0]
データ品質を測定するための新しい指標を紹介し説明する。
この尺度は、分類性能とデータの劣化の相関した進化に基づいている。
各基準の解釈と評価レベルの例を提供する。
論文 参考訳(メタデータ) (2023-12-13T11:20:09Z) - Collect, Measure, Repeat: Reliability Factors for Responsible AI Data
Collection [8.12993269922936]
AIのデータ収集は責任ある方法で行うべきだと我々は主張する。
本稿では,データ収集をメトリクスの集合でガイドするResponsible AI(RAI)手法を提案する。
論文 参考訳(メタデータ) (2023-08-22T18:01:27Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Critical analysis on the reproducibility of visual quality assessment
using deep features [6.746400031322727]
教師付き機械学習モデルのトレーニングに使用されるデータは、一般的に独立したトレーニング、検証、テストセットに分割される。
本稿では,非参照画像と映像品質評価文献に複雑なデータ漏洩事件が発生したことを示す。
論文 参考訳(メタデータ) (2020-09-10T09:51:18Z) - Summary-Source Proposition-level Alignment: Task, Datasets and
Supervised Baseline [94.0601799665342]
資料の参照要約における文のアライメントは,補助的な要約作業として有用であった。
本稿では,2つの重要な新機能を導入しながら,要約ソースアライメントを明示的なタスクとして確立することを提案する。
我々は提案レベルのアライメントのための新しいトレーニングデータセットを作成し、利用可能な要約評価データから自動的に抽出する。
教師なしアプローチよりも優れたアライメント品質を示す教師付き命題アライメントベースラインモデルを提案する。
論文 参考訳(メタデータ) (2020-09-01T17:27:12Z) - Learning from Imperfect Annotations [15.306536555936692]
現在、多くの機械学習システムは、大量の人間の注釈付きデータに基づいて訓練されている。
モデルトレーニングとアグリゲーションステップをマージすることを可能にする新しいエンドツーエンドフレームワークを提案する。
アノテーションを集約する現在の最先端アプローチに比べて、精度が最大25%向上していることを示す。
論文 参考訳(メタデータ) (2020-04-07T15:21:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。