論文の概要: No Need to Sacrifice Data Quality for Quantity: Crowd-Informed Machine Annotation for Cost-Effective Understanding of Visual Data
- arxiv url: http://arxiv.org/abs/2409.00048v1
- Date: Mon, 19 Aug 2024 14:45:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-08 15:31:02.409669
- Title: No Need to Sacrifice Data Quality for Quantity: Crowd-Informed Machine Annotation for Cost-Effective Understanding of Visual Data
- Title(参考訳): 量に対するデータ品質を犠牲にする必要はない:視覚データのコスト効果理解のためのクラウドインフォームドマシンアノテーション
- Authors: Christopher Klugmann, Rafid Mahmood, Guruprasad Hegde, Amit Kale, Daniel Kondermann,
- Abstract要約: 結果の信頼性を犠牲にすることなく、大規模に視覚データの品質チェックを可能にするフレームワークを提案する。
これは、群衆の反応を予測するために訓練された畳み込みニューラルネットワークを用いて、高度に自動化することができる。
当社のアプローチを実世界の2つの挑戦的なオートマチックデータセットで実証し、我々のモデルがタスクのかなりの部分を完全に自動化できることを示します。
- 参考スコア(独自算出の注目度): 2.8769762836804538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Labeling visual data is expensive and time-consuming. Crowdsourcing systems promise to enable highly parallelizable annotations through the participation of monetarily or otherwise motivated workers, but even this approach has its limits. The solution: replace manual work with machine work. But how reliable are machine annotators? Sacrificing data quality for high throughput cannot be acceptable, especially in safety-critical applications such as autonomous driving. In this paper, we present a framework that enables quality checking of visual data at large scales without sacrificing the reliability of the results. We ask annotators simple questions with discrete answers, which can be highly automated using a convolutional neural network trained to predict crowd responses. Unlike the methods of previous work, which aim to directly predict soft labels to address human uncertainty, we use per-task posterior distributions over soft labels as our training objective, leveraging a Dirichlet prior for analytical accessibility. We demonstrate our approach on two challenging real-world automotive datasets, showing that our model can fully automate a significant portion of tasks, saving costs in the high double-digit percentage range. Our model reliably predicts human uncertainty, allowing for more accurate inspection and filtering of difficult examples. Additionally, we show that the posterior distributions over soft labels predicted by our model can be used as priors in further inference processes, reducing the need for numerous human labelers to approximate true soft labels accurately. This results in further cost reductions and more efficient use of human resources in the annotation process.
- Abstract(参考訳): ビジュアルデータのラベル付けは高価で時間を要する。
クラウドソーシングシステムは、金銭的またはその他の動機づけられた労働者の参加を通じて、高度に並列化可能なアノテーションを可能にすることを約束するが、このアプローチにも限界がある。
解決策:手作業から機械作業に置き換える。
しかし、マシンアノテータはどの程度信頼できるのか?
高いスループットでデータ品質を犠牲にすることは、特に自律運転のような安全クリティカルなアプリケーションでは、受け入れられない。
本稿では,結果の信頼性を犠牲にすることなく,大規模に視覚データの品質チェックを可能にするフレームワークを提案する。
これは、群衆の反応を予測するために訓練された畳み込みニューラルネットワークを用いて、高度に自動化することができる。
ソフトラベルを直接予測して人間の不確実性に対処する従来の手法とは違って,我々は,解析的アクセシビリティに先立ってディリクレを応用して,ソフトラベル上のタスクごとの後方分布をトレーニング目的として用いている。
実世界の2つの挑戦的な自動車データセットに対する我々のアプローチを実証し、我々のモデルがタスクのかなりの部分を完全に自動化し、高い2桁のパーセンテージでコストを節約できることを示した。
我々のモデルは、人間の不確実性を確実に予測し、より正確な検査と難解な例のフィルタリングを可能にする。
さらに,本モデルにより予測されたソフトラベルの後方分布を,さらなる推論プロセスの先行として利用することができ,真のソフトラベルを正確に近似するための多数の人間ラベルの必要性を低減できることを示す。
これにより、アノテーションプロセスにおける人的資源のさらなるコスト削減とより効率的な利用が可能になる。
関連論文リスト
- AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - Improving a Named Entity Recognizer Trained on Noisy Data with a Few
Clean Instances [55.37242480995541]
クリーンなインスタンスの小さなセットから,ノイズの多いNERデータを誘導することで,ノイズを発生させる手法を提案する。
メインのNERモデルとともに、判別器モデルをトレーニングし、その出力を使用してサンプルの重み付けを校正します。
クラウドソーシングと遠隔監視データセットの結果から,提案手法は少ないガイダンスセットで継続的に性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2023-10-25T17:23:37Z) - Distributional Instance Segmentation: Modeling Uncertainty and High
Confidence Predictions with Latent-MaskRCNN [77.0623472106488]
本稿では,潜在符号を用いた分散インスタンス分割モデルのクラスについて検討する。
ロボットピッキングへの応用として,高い精度を実現するための信頼性マスク手法を提案する。
本手法は,新たにリリースした曖昧なシーンのデータセットを含め,ロボットシステムにおける致命的なエラーを著しく低減できることを示す。
論文 参考訳(メタデータ) (2023-05-03T05:57:29Z) - Optimising Human-Machine Collaboration for Efficient High-Precision
Information Extraction from Text Documents [23.278525774427607]
我々は、人間のみ、人間のみ、機械のみの情報抽出アプローチの利点と欠点を考察する。
弱スーパービジョンラベリングと人間の検証を用いた情報抽出のためのフレームワークとアタッチメントツールを提案する。
コンピュータの速度と人間の理解の組み合わせは、わずかな時間しか必要とせず、手動のアノテーションに匹敵する精度が得られる。
論文 参考訳(メタデータ) (2023-02-18T13:07:22Z) - Leveraging variational autoencoders for multiple data imputation [0.5156484100374059]
本稿では,複数の計算手法を用いて,データ欠落を考慮に入れた深部モデル,すなわち変分オートエンコーダ(VAE)について検討する。
VAEは、過小評価と過信な計算によって、欠落したデータの経験的カバレッジを低くすることがわかった。
これを克服するために、一般化されたベイズフレームワークから見た$beta$-VAEsを用いて、モデルの誤特定に対して堅牢性を提供する。
論文 参考訳(メタデータ) (2022-09-30T08:58:43Z) - Going Beyond One-Hot Encoding in Classification: Can Human Uncertainty
Improve Model Performance? [14.610038284393166]
ラベルの不確実性は、分散ラベルを介してトレーニングプロセスに明示的に組み込まれていることを示す。
ラベルの不確実性の取り込みは、モデルが見つからないデータをより一般化し、モデルの性能を向上させるのに役立ちます。
既存のキャリブレーション法と同様に、分布ラベルはより良いキャリブレーションの確率をもたらし、それによってより確実で信頼できる予測が得られる。
論文 参考訳(メタデータ) (2022-05-30T17:19:11Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z) - OpinionRank: Extracting Ground Truth Labels from Unreliable Expert
Opinions with Graph-Based Spectral Ranking [2.1930130356902207]
クラウドソーシングは、分散ラベルコレクションを実行するための、ポピュラーで安価で効率的なデータマイニングソリューションとして登場した。
我々は、クラウドソースアノテーションを信頼できるラベルに統合するための、モデルフリーで解釈可能なグラフベースのスペクトルアルゴリズムであるOpinionRankを提案する。
実験の結果,より高パラメータ化アルゴリズムと比較した場合,OpinionRankが好適に動作することがわかった。
論文 参考訳(メタデータ) (2021-02-11T08:12:44Z) - Diverse Complexity Measures for Dataset Curation in Self-driving [80.55417232642124]
トラフィックシーンの面白さを定量化する多様な基準を活用した新たなデータ選択手法を提案する。
実験の結果,提案するキュレーションパイプラインは,より汎用的で高いパフォーマンスをもたらすデータセットを選択できることが判明した。
論文 参考訳(メタデータ) (2021-01-16T23:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。