論文の概要: Minority Reports: Balancing Cost and Quality in Ground Truth Data Annotation
- arxiv url: http://arxiv.org/abs/2504.09341v1
- Date: Sat, 12 Apr 2025 21:04:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:53:32.345750
- Title: Minority Reports: Balancing Cost and Quality in Ground Truth Data Annotation
- Title(参考訳): マイノリティレポート:地平データの注釈におけるコストと品質のバランス
- Authors: Hsuan Wei Liao, Christopher Klugmann, Daniel Kondermann, Rafid Mahmood,
- Abstract要約: 高品質なデータアノテーションは、機械学習ベースのソフトウェアを開発する上で、不可欠だが労力がかかる、コストのかかる側面である。
マイノリティレポートの検出と削除により、アノテーションの精度とコストの本質的にのトレードオフについて検討する。
提案手法では,実行前に冗長なアノテーションタスクを割り当てる手法を提案する。
- 参考スコア(独自算出の注目度): 3.0865523660271106
- License:
- Abstract: High-quality data annotation is an essential but laborious and costly aspect of developing machine learning-based software. We explore the inherent tradeoff between annotation accuracy and cost by detecting and removing minority reports -- instances where annotators provide incorrect responses -- that indicate unnecessary redundancy in task assignments. We propose an approach to prune potentially redundant annotation task assignments before they are executed by estimating the likelihood of an annotator disagreeing with the majority vote for a given task. Our approach is informed by an empirical analysis over computer vision datasets annotated by a professional data annotation platform, which reveals that the likelihood of a minority report event is dependent primarily on image ambiguity, worker variability, and worker fatigue. Simulations over these datasets show that we can reduce the number of annotations required by over 60% with a small compromise in label quality, saving approximately 6.6 days-equivalent of labor. Our approach provides annotation service platforms with a method to balance cost and dataset quality. Machine learning practitioners can tailor annotation accuracy levels according to specific application needs, thereby optimizing budget allocation while maintaining the data quality necessary for critical settings like autonomous driving technology.
- Abstract(参考訳): 高品質なデータアノテーションは、機械学習ベースのソフトウェアを開発する上で、不可欠だが労力がかかる、コストのかかる側面である。
我々は、タスク割り当てにおける不要な冗長性を示す少数派レポート(アノテータが誤ったレスポンスを提供するインスタンス)を検出し、削除することで、アノテーションの正確さとコストの本質的にのトレードオフを探る。
提案手法は,あるタスクに対して多数決に異を唱えるアノテータの確率を推定することにより,実行前に冗長なアノテーションタスクの割り当てを誘発する手法である。
本手法は,専門的なデータアノテーションプラットフォームによって注釈付けされたコンピュータビジョンデータセットに対する経験的分析により,画像のあいまいさ,作業者の多様性,作業者の疲労に主に依存するマイノリティレポートイベントの可能性を明らかにする。
これらのデータセットのシミュレーションは、ラベルの品質の妥協によって60%以上のアノテーションを削減でき、約6.6日分の労働を節約できることを示している。
当社のアプローチは、アノテーションサービスプラットフォームに、コストとデータセットの品質のバランスをとる方法を提供します。
機械学習の実践者は、特定のアプリケーションのニーズに応じて、アノテーションの精度レベルを調整できるため、自律運転技術のような重要な設定に必要なデータ品質を維持しながら、予算配分を最適化できる。
関連論文リスト
- No Need to Sacrifice Data Quality for Quantity: Crowd-Informed Machine Annotation for Cost-Effective Understanding of Visual Data [2.8769762836804538]
結果の信頼性を犠牲にすることなく、大規模に視覚データの品質チェックを可能にするフレームワークを提案する。
これは、群衆の反応を予測するために訓練された畳み込みニューラルネットワークを用いて、高度に自動化することができる。
当社のアプローチを実世界の2つの挑戦的なオートマチックデータセットで実証し、我々のモデルがタスクのかなりの部分を完全に自動化できることを示します。
論文 参考訳(メタデータ) (2024-08-19T14:45:50Z) - How Much Data are Enough? Investigating Dataset Requirements for Patch-Based Brain MRI Segmentation Tasks [74.21484375019334]
ディープニューラルネットワークを確実にトレーニングするには、大規模なデータセットへのアクセスが必要である。
モデル開発に関連する時間的・経済的コストを緩和するためには,満足度の高いモデルをトレーニングするために必要なデータの量を明確に理解することが重要である。
本稿では,パッチベースのセグメンテーションネットワークのトレーニングに必要なアノテートデータの量を推定するための戦略的枠組みを提案する。
論文 参考訳(メタデータ) (2024-04-04T13:55:06Z) - Towards Model-Based Data Acquisition for Subjective Multi-Task NLP
Problems [12.38430125789305]
マルチタスクシナリオにおける各テキストに対して個別にアノテートされたタスクの選択を可能にする新しいモデルベースアプローチを提案する。
3つのデータセット、数十のNLPタスク、数千のアノテーションによる実験により、我々の手法は、知識の喪失を無視できるアノテーションの数を最大40%削減できることを示した。
論文 参考訳(メタデータ) (2023-12-13T15:03:27Z) - How Much More Data Do I Need? Estimating Requirements for Downstream
Tasks [99.44608160188905]
小さなトレーニングデータセットと学習アルゴリズムがあれば、ターゲットの検証やテストのパフォーマンスに到達するのに、どれくらいのデータが必要か?
データ要求を過大評価または過小評価すると、十分な予算で回避できる相当なコストが発生する。
本ガイドラインを用いることで,機械学習システムのデータ要求を正確に推定し,開発時間とデータ取得コストの双方で節約することができる。
論文 参考訳(メタデータ) (2022-07-04T21:16:05Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - A Survey on Machine Learning Techniques for Auto Labeling of Video,
Audio, and Text Data [3.837753012519291]
機械学習は、分類、オブジェクト検出、画像のセグメンテーション、自然言語解析など、多くの異なる領域でタスクを実行するために利用されてきた。
データラベリングは、機械学習において常に最も重要なタスクの1つです。
本稿では,ビデオ,音声,テキストデータに対して,最適化されたデータアノテーションとラベル付けに焦点を当てた従来手法のレビューを行う。
論文 参考訳(メタデータ) (2021-09-08T17:15:34Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Fairness in Semi-supervised Learning: Unlabeled Data Help to Reduce
Discrimination [53.3082498402884]
機械学習の台頭における投機は、機械学習モデルによる決定が公正かどうかである。
本稿では,未ラベルデータのラベルを予測するための擬似ラベリングを含む,前処理フェーズにおける公平な半教師付き学習の枠組みを提案する。
偏見、分散、ノイズの理論的分解分析は、半教師付き学習における差別の異なる源とそれらが公平性に与える影響を浮き彫りにする。
論文 参考訳(メタデータ) (2020-09-25T05:48:56Z) - Learning from Imperfect Annotations [15.306536555936692]
現在、多くの機械学習システムは、大量の人間の注釈付きデータに基づいて訓練されている。
モデルトレーニングとアグリゲーションステップをマージすることを可能にする新しいエンドツーエンドフレームワークを提案する。
アノテーションを集約する現在の最先端アプローチに比べて、精度が最大25%向上していることを示す。
論文 参考訳(メタデータ) (2020-04-07T15:21:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。