Fugu-MT 論文翻訳(概要): Analyzing Dataset Annotation Quality Management in the Wild

論文の概要: Analyzing Dataset Annotation Quality Management in the Wild

arxiv url: http://arxiv.org/abs/2307.08153v1
Date: Sun, 16 Jul 2023 21:22:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-18 15:12:01.522650
Title: Analyzing Dataset Annotation Quality Management in the Wild
Title（参考訳）: 野生におけるデータセットアノテーションの品質管理の分析
Authors: Jan-Christoph Klie, Richard Eckart de Castilho, Iryna Gurevych
Abstract要約: 最先端モデルのトレーニングと評価に使用される一般的なデータセットでさえ、間違った量のアノテーション、バイアス、あるいはアノテーションのアーティファクトを含んでいる。文献に記載されているように,まず,データセット作成のための推奨品質管理プラクティスを調査し,要約する。我々は、テキストデータセットを導入した591の学術出版物のコーパスをコンパイルし、アノテータ管理、合意、判断、データ検証などの品質関連の側面に注釈を付ける。
参考スコア（独自算出の注目度）: 61.60284787473162
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Data quality is crucial for training accurate, unbiased, and trustworthy machine learning models and their correct evaluation. Recent works, however, have shown that even popular datasets used to train and evaluate state-of-the-art models contain a non-negligible amount of erroneous annotations, bias or annotation artifacts. There exist best practices and guidelines regarding annotation projects. But to the best of our knowledge, no large-scale analysis has been performed as of yet on how quality management is actually conducted when creating natural language datasets and whether these recommendations are followed. Therefore, we first survey and summarize recommended quality management practices for dataset creation as described in the literature and provide suggestions on how to apply them. Then, we compile a corpus of 591 scientific publications introducing text datasets and annotate it for quality-related aspects, such as annotator management, agreement, adjudication or data validation. Using these annotations, we then analyze how quality management is conducted in practice. We find that a majority of the annotated publications apply good or very good quality management. However, we deem the effort of 30% of the works as only subpar. Our analysis also shows common errors, especially with using inter-annotator agreement and computing annotation error rates.
Abstract（参考訳）: データ品質は、正確で偏りのない、信頼できる機械学習モデルとその正しい評価のトレーニングに不可欠である。しかし、近年の研究では、最先端モデルのトレーニングや評価に使用される一般的なデータセットでさえ、誤ったアノテーションやバイアス、アノテーションアーティファクトを不要に含んでいることが示されている。アノテーションプロジェクトにはベストプラクティスとガイドラインがあります。しかし、私たちの知る限りでは、自然言語データセット作成時の品質管理の実施方法や、これらの推奨事項が従うかどうかについて、まだ大規模な分析が行われていません。そこで本論文では,まず,データセット作成のための推奨品質管理プラクティスを調査し,その適用方法について提案する。そして,テキストデータセットを導入した591の学術出版物のコーパスをコンパイルし,アノテータ管理,合意,判断,データ検証などの品質関連側面に注釈を付ける。次に,これらのアノテーションを用いて品質管理の実施方法を分析する。注釈付き出版物の大半は、良質または非常に良質な管理を施している。しかし、我々は作品の30%の努力が不足しているとみなしている。また,本分析では,特にアノテーション間一致と演算誤り率を用いて,一般的な誤りを示す。

関連論文リスト

Datasheets Aren't Enough: DataRubrics for Automated Quality Metrics and Accountability [41.23032741638842]
本稿では,データセットレビュープロセスに,体系的な記述型評価指標を組み込むことを提唱する。我々は、人間とモデル生成データセットの品質を評価するための構造化フレームワークであるDataRubricsを紹介する。
論文参考訳（メタデータ） (2025-06-02T15:31:52Z)
DataMan: Data Manager for Pre-training Large Language Models [39.677609311769146]
既存の方法は限定的な直観に依存しており、包括的で明確なガイドラインを欠いている。テキストパープレキシティ異常の原因から14の品質基準を導出し、ドメイン混合をサポートするために15の共通アプリケーションドメインを導入する。実験では、DataManを使って30Bトークンを選択し、1.3B-パラメータ言語モデルをトレーニングし、我々のアプローチを検証する。
論文参考訳（メタデータ） (2025-02-26T18:01:19Z)
CritiQ: Mining Data Quality Criteria from Human Preferences [70.35346554179036]
人間の嗜好からデータ品質の基準を自動的にマイニングする新しいデータ選択手法であるCritiQを紹介する。 CritiQ Flowはマネージャエージェントを使用して品質基準を進化させ、ワーカーエージェントはペアで判断する。コード,数学,論理領域において,本手法の有効性を実証する。
論文参考訳（メタデータ） (2025-02-26T16:33:41Z)
QuRating: Selecting High-Quality Data for Training Language Models [64.83332850645074]
データ品質に関する人間の直感をキャプチャできる事前学習データを選択するQuRatingを導入する。本稿では,書体,専門知識,事実とトリビア,教育的価値の4つの特性について検討する。ペアの判断からスカラー評価を学習するためにQurモデルをトレーニングし、それを4つの基準ごとに品質評価付き260Bのトレーニングコーパスにアノテートするために使用します。
論文参考訳（メタデータ） (2024-02-15T06:36:07Z)
One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文参考訳（メタデータ） (2023-12-16T03:33:12Z)
A Novel Metric for Measuring Data Quality in Classification Applications (extended version) [0.0]
データ品質を測定するための新しい指標を紹介し説明する。この尺度は、分類性能とデータの劣化の相関した進化に基づいている。各基準の解釈と評価レベルの例を提供する。
論文参考訳（メタデータ） (2023-12-13T11:20:09Z)
Collect, Measure, Repeat: Reliability Factors for Responsible AI Data Collection [8.12993269922936]
AIのデータ収集は責任ある方法で行うべきだと我々は主張する。本稿では,データ収集をメトリクスの集合でガイドするResponsible AI(RAI)手法を提案する。
論文参考訳（メタデータ） (2023-08-22T18:01:27Z)
Annotation Error Detection: Analyzing the Past and Present for a More Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文参考訳（メタデータ） (2022-06-05T22:31:45Z)
Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文参考訳（メタデータ） (2021-04-17T21:34:10Z)
Critical analysis on the reproducibility of visual quality assessment using deep features [6.746400031322727]
教師付き機械学習モデルのトレーニングに使用されるデータは、一般的に独立したトレーニング、検証、テストセットに分割される。本稿では,非参照画像と映像品質評価文献に複雑なデータ漏洩事件が発生したことを示す。
論文参考訳（メタデータ） (2020-09-10T09:51:18Z)
Summary-Source Proposition-level Alignment: Task, Datasets and Supervised Baseline [94.0601799665342]
資料の参照要約における文のアライメントは,補助的な要約作業として有用であった。本稿では,2つの重要な新機能を導入しながら,要約ソースアライメントを明示的なタスクとして確立することを提案する。我々は提案レベルのアライメントのための新しいトレーニングデータセットを作成し、利用可能な要約評価データから自動的に抽出する。教師なしアプローチよりも優れたアライメント品質を示す教師付き命題アライメントベースラインモデルを提案する。
論文参考訳（メタデータ） (2020-09-01T17:27:12Z)
Learning from Imperfect Annotations [15.306536555936692]
現在、多くの機械学習システムは、大量の人間の注釈付きデータに基づいて訓練されている。モデルトレーニングとアグリゲーションステップをマージすることを可能にする新しいエンドツーエンドフレームワークを提案する。アノテーションを集約する現在の最先端アプローチに比べて、精度が最大25%向上していることを示す。
論文参考訳（メタデータ） (2020-04-07T15:21:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。