論文の概要: Learning from Imperfect Annotations
- arxiv url: http://arxiv.org/abs/2004.03473v1
- Date: Tue, 7 Apr 2020 15:21:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 23:03:25.841627
- Title: Learning from Imperfect Annotations
- Title(参考訳): 不完全なアノテーションから学ぶ
- Authors: Emmanouil Antonios Platanios and Maruan Al-Shedivat and Eric Xing and
Tom Mitchell
- Abstract要約: 現在、多くの機械学習システムは、大量の人間の注釈付きデータに基づいて訓練されている。
モデルトレーニングとアグリゲーションステップをマージすることを可能にする新しいエンドツーエンドフレームワークを提案する。
アノテーションを集約する現在の最先端アプローチに比べて、精度が最大25%向上していることを示す。
- 参考スコア(独自算出の注目度): 15.306536555936692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many machine learning systems today are trained on large amounts of
human-annotated data. Data annotation tasks that require a high level of
competency make data acquisition expensive, while the resulting labels are
often subjective, inconsistent, and may contain a variety of human biases. To
improve the data quality, practitioners often need to collect multiple
annotations per example and aggregate them before training models. Such a
multi-stage approach results in redundant annotations and may often produce
imperfect "ground truth" that may limit the potential of training accurate
machine learning models. We propose a new end-to-end framework that enables us
to: (i) merge the aggregation step with model training, thus allowing deep
learning systems to learn to predict ground truth estimates directly from the
available data, and (ii) model difficulties of examples and learn
representations of the annotators that allow us to estimate and take into
account their competencies. Our approach is general and has many applications,
including training more accurate models on crowdsourced data, ensemble
learning, as well as classifier accuracy estimation from unlabeled data. We
conduct an extensive experimental evaluation of our method on 5 crowdsourcing
datasets of varied difficulty and show accuracy gains of up to 25% over the
current state-of-the-art approaches for aggregating annotations, as well as
significant reductions in the required annotation redundancy.
- Abstract(参考訳): 今日、多くの機械学習システムは、大量の人間の注釈データに基づいて訓練されている。
高いレベルの能力を必要とするデータアノテーションタスクは、データ取得を高価にするが、結果として得られるラベルは、しばしば主観的で一貫性がなく、さまざまな人間のバイアスを含む。
データ品質を改善するために、実践者はサンプル毎に複数のアノテーションを収集し、モデルをトレーニングする前にそれらを集約する必要がある。
このような多段階的アプローチは冗長なアノテーションを生み出し、正確な機械学習モデルをトレーニングする可能性を制限する不完全な「根拠の真実」を生み出すことが多い。
私たちは、新しいエンドツーエンドフレームワークを提案します。
一 モデル学習と集約段階を融合することにより、深層学習システムにおいて、利用可能なデータから直接真理推定を予測できるようにし、
(2)例の難易度をモデル化し,それらの能力を考慮したアノテータの表現を学習する。
我々のアプローチは汎用的で、クラウドソースデータによるより正確なモデルのトレーニング、アンサンブル学習、ラベルなしデータからの分類器の精度推定など、多くの応用がある。
本研究では,様々な難易度を持つ5つのデータセットをクラウドソーシングし,アノテーションを集約する現在の最先端手法に対して最大25%の精度向上率を示すとともに,必要なアノテーション冗長性を大幅に削減した。
関連論文リスト
- Complementary Learning for Real-World Model Failure Detection [15.779651238128562]
そこでは、異なる訓練パラダイムから学習特性を用いてモデルエラーを検出する。
我々は,制御的かつ自己管理的な方法で,点群における意味的および予測的動作ラベルを学習することにより,我々のアプローチを実証する。
大規模定性解析を行い、ライダー点雲にラベル付き異常を持つ最初のデータセットであるLidarCODAを提示する。
論文 参考訳(メタデータ) (2024-07-19T13:36:35Z) - Combating Missing Modalities in Egocentric Videos at Test Time [92.38662956154256]
現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。
再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。
MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文 参考訳(メタデータ) (2024-04-23T16:01:33Z) - Robust Machine Learning by Transforming and Augmenting Imperfect
Training Data [6.928276018602774]
この論文は、現代の機械学習のいくつかのデータ感度を探求する。
まず、トレーニングデータで測定された事前の人間の識別をMLが符号化するのを防ぐ方法について論じる。
次に、トレーニング中に予測忠実度を提供するが、デプロイ時に信頼性が低い突発的特徴を含むデータから学習する問題について論じる。
論文 参考訳(メタデータ) (2023-12-19T20:49:28Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - Evaluating and Crafting Datasets Effective for Deep Learning With Data
Maps [0.0]
大規模なデータセットのトレーニングには、過剰なシステムリソースと実現不可能な時間を要することが多い。
教師付き学習では、大規模なデータセットはサンプルを手動でラベル付けするのにより多くの時間を必要とする。
そこで本研究では,初期のトレーニングセッションの後に,分散モデルの精度に匹敵する精度で,より小さなデータセットをキュレートする手法を提案する。
論文 参考訳(メタデータ) (2022-08-22T03:30:18Z) - A Survey of Learning on Small Data: Generalization, Optimization, and
Challenge [101.27154181792567]
ビッグデータの一般化能力を近似した小さなデータについて学ぶことは、AIの究極の目的の1つである。
この調査はPACフレームワークの下でのアクティブサンプリング理論に従い、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。
効率的な小さなデータ表現の恩恵を受けるかもしれない複数のデータアプリケーションについて調査する。
論文 参考訳(メタデータ) (2022-07-29T02:34:19Z) - Dynamic Supervisor for Cross-dataset Object Detection [52.95818230087297]
オブジェクト検出タスクにおけるデータセット間のトレーニングは、データセットにまたがるカテゴリ内の不整合が、完全に教師付き学習を半教師付き学習に変換するため、複雑である。
本稿では,ハードラベルとソフトラベルを併用した複数更新サブモデルを用いて,アノテーションを複数回更新する動的スーパーバイザフレームワークを提案する。
最終生成アノテーションでは、ハードラベルトレーニングとソフトラベルトレーニングを統合することで、リコールと精度が大幅に向上した。
論文 参考訳(メタデータ) (2022-04-01T03:18:46Z) - Semi-supervised Deep Learning for Image Classification with Distribution
Mismatch: A Survey [1.5469452301122175]
ディープラーニングモデルは、予測モデルをトレーニングするためにラベル付き観測の豊富な部分に依存します。
ラベル付きデータ観測を収集することは高価であり、ディープラーニングモデルの使用は理想的ではない。
多くの状況では、異なる非競合データソースが利用可能である。
これにより、ラベル付きデータセットと非ラベル付きデータセットの間にかなりの分散ミスマッチが発生するリスクが生じる。
論文 参考訳(メタデータ) (2022-03-01T02:46:00Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - A Systematic Evaluation of Transfer Learning and Pseudo-labeling with
BERT-based Ranking Models [2.0498977512661267]
BERTに基づく5つの英語データセット間のニューラルランキングモデルの転送性を評価する。
各コレクションには膨大な数のクエリがあり、フルショット評価モードを可能にします。
擬似ラベルのトレーニングは、転送学習と比較して、競争力や優れたモデルを生み出すことができる。
論文 参考訳(メタデータ) (2021-03-04T21:08:06Z) - Fairness in Semi-supervised Learning: Unlabeled Data Help to Reduce
Discrimination [53.3082498402884]
機械学習の台頭における投機は、機械学習モデルによる決定が公正かどうかである。
本稿では,未ラベルデータのラベルを予測するための擬似ラベリングを含む,前処理フェーズにおける公平な半教師付き学習の枠組みを提案する。
偏見、分散、ノイズの理論的分解分析は、半教師付き学習における差別の異なる源とそれらが公平性に与える影響を浮き彫りにする。
論文 参考訳(メタデータ) (2020-09-25T05:48:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。