論文の概要: Analyzing Dataset Annotation Quality Management in the Wild
- arxiv url: http://arxiv.org/abs/2307.08153v3
- Date: Thu, 25 Jan 2024 23:21:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 18:10:34.000221
- Title: Analyzing Dataset Annotation Quality Management in the Wild
- Title(参考訳): 野生におけるデータセットアノテーションの品質管理の分析
- Authors: Jan-Christoph Klie, Richard Eckart de Castilho, Iryna Gurevych
- Abstract要約: 最先端モデルのトレーニングと評価に使用される一般的なデータセットでさえ、誤ったアノテーションやバイアス、アーティファクトの量は無視できない。
データセット作成プロジェクトに関するプラクティスやガイドラインは存在するが、品質管理の実施方法に関する大規模な分析はまだ行われていない。
- 参考スコア(独自算出の注目度): 63.07224587146207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data quality is crucial for training accurate, unbiased, and trustworthy
machine learning models as well as for their correct evaluation. Recent works,
however, have shown that even popular datasets used to train and evaluate
state-of-the-art models contain a non-negligible amount of erroneous
annotations, biases, or artifacts. While practices and guidelines regarding
dataset creation projects exist, to our knowledge, large-scale analysis has yet
to be performed on how quality management is conducted when creating natural
language datasets and whether these recommendations are followed. Therefore, we
first survey and summarize recommended quality management practices for dataset
creation as described in the literature and provide suggestions for applying
them. Then, we compile a corpus of 591 scientific publications introducing text
datasets and annotate it for quality-related aspects, such as annotator
management, agreement, adjudication, or data validation. Using these
annotations, we then analyze how quality management is conducted in practice. A
majority of the annotated publications apply good or excellent quality
management. However, we deem the effort of 30\% of the works as only subpar.
Our analysis also shows common errors, especially when using inter-annotator
agreement and computing annotation error rates.
- Abstract(参考訳): データ品質は、正確で偏りのない、信頼できる機械学習モデルをトレーニングするだけでなく、正しい評価のためにも重要です。
しかし、最近の研究では、最先端モデルのトレーニングと評価に使用される一般的なデータセットでさえ、誤ったアノテーションやバイアス、アーティファクトの量を含むことが示されている。
データセット作成プロジェクトに関するプラクティスやガイドラインは存在するが、私たちの知る限り、自然言語データセットを作成する際の品質管理の実施方法や、これらの推奨事項に従うかどうかについて、大規模な分析はまだ行われていない。
そこで本論文では,まず,データセット作成のための推奨品質管理プラクティスを概説し,適用するための提案を行う。
次に,テキストデータセットを導入した591の学術出版物のコーパスをコンパイルし,アノテータ管理やアノテータ管理,合意,判断,データ検証などの品質関連側面に注釈を付ける。
次に,これらのアノテーションを用いて品質管理の実施方法を分析する。
注釈付き出版物の大半は優れた品質管理を施している。
しかし、作品の30\%の努力は副次的なものであると考えます。
また,アノテーション間の一致やアノテーションの誤り率の計算では,一般的な誤りも見られる。
関連論文リスト
- QuRating: Selecting High-Quality Data for Training Language Models [64.83332850645074]
データ品質に関する人間の直感をキャプチャできる事前学習データを選択するQuRatingを導入する。
本稿では,書体,専門知識,事実とトリビア,教育的価値の4つの特性について検討する。
ペアの判断からスカラー評価を学習するためにQurモデルをトレーニングし、それを4つの基準ごとに品質評価付き260Bのトレーニングコーパスにアノテートするために使用します。
論文 参考訳(メタデータ) (2024-02-15T06:36:07Z) - One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - A Novel Metric for Measuring Data Quality in Classification Applications
(extended version) [0.0]
データ品質を測定するための新しい指標を紹介し説明する。
この尺度は、分類性能とデータの劣化の相関した進化に基づいている。
各基準の解釈と評価レベルの例を提供する。
論文 参考訳(メタデータ) (2023-12-13T11:20:09Z) - Collect, Measure, Repeat: Reliability Factors for Responsible AI Data
Collection [8.12993269922936]
AIのデータ収集は責任ある方法で行うべきだと我々は主張する。
本稿では,データ収集をメトリクスの集合でガイドするResponsible AI(RAI)手法を提案する。
論文 参考訳(メタデータ) (2023-08-22T18:01:27Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Critical analysis on the reproducibility of visual quality assessment
using deep features [6.746400031322727]
教師付き機械学習モデルのトレーニングに使用されるデータは、一般的に独立したトレーニング、検証、テストセットに分割される。
本稿では,非参照画像と映像品質評価文献に複雑なデータ漏洩事件が発生したことを示す。
論文 参考訳(メタデータ) (2020-09-10T09:51:18Z) - Summary-Source Proposition-level Alignment: Task, Datasets and
Supervised Baseline [94.0601799665342]
資料の参照要約における文のアライメントは,補助的な要約作業として有用であった。
本稿では,2つの重要な新機能を導入しながら,要約ソースアライメントを明示的なタスクとして確立することを提案する。
我々は提案レベルのアライメントのための新しいトレーニングデータセットを作成し、利用可能な要約評価データから自動的に抽出する。
教師なしアプローチよりも優れたアライメント品質を示す教師付き命題アライメントベースラインモデルを提案する。
論文 参考訳(メタデータ) (2020-09-01T17:27:12Z) - Learning from Imperfect Annotations [15.306536555936692]
現在、多くの機械学習システムは、大量の人間の注釈付きデータに基づいて訓練されている。
モデルトレーニングとアグリゲーションステップをマージすることを可能にする新しいエンドツーエンドフレームワークを提案する。
アノテーションを集約する現在の最先端アプローチに比べて、精度が最大25%向上していることを示す。
論文 参考訳(メタデータ) (2020-04-07T15:21:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。