論文の概要: End-to-End Learning from Noisy Crowd to Supervised Machine Learning
Models
- arxiv url: http://arxiv.org/abs/2011.06833v1
- Date: Fri, 13 Nov 2020 09:48:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 00:19:09.384353
- Title: End-to-End Learning from Noisy Crowd to Supervised Machine Learning
Models
- Title(参考訳): うるさい群衆から教師付き機械学習モデルへのエンド・ツー・エンド学習
- Authors: Taraneh Younesian, Chi Hong, Amirmasoud Ghiassi, Robert Birke, Lydia
Y. Chen
- Abstract要約: 我々は、ハイブリッドインテリジェンス、すなわち深層モデルと人間の専門家を組み合わせることで、ノイズの多いクラウドソースデータからエンドツーエンドの学習フレームワークを設計することを提唱する。
ラベルアグリゲーションは,アノテータの混乱行列を推定して学習プロセスを改善することにより,どのような効果があるかを示す。
我々は、SVMとディープニューラルネットワークを用いて、複数の画像データセット上での戦略の有効性を実証する。
- 参考スコア(独自算出の注目度): 6.278267504352446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Labeling real-world datasets is time consuming but indispensable for
supervised machine learning models. A common solution is to distribute the
labeling task across a large number of non-expert workers via crowd-sourcing.
Due to the varying background and experience of crowd workers, the obtained
labels are highly prone to errors and even detrimental to the learning models.
In this paper, we advocate using hybrid intelligence, i.e., combining deep
models and human experts, to design an end-to-end learning framework from noisy
crowd-sourced data, especially in an on-line scenario. We first summarize the
state-of-the-art solutions that address the challenges of noisy labels from
non-expert crowd and learn from multiple annotators. We show how label
aggregation can benefit from estimating the annotators' confusion matrices to
improve the learning process. Moreover, with the help of an expert labeler as
well as classifiers, we cleanse aggregated labels of highly informative samples
to enhance the final classification accuracy. We demonstrate the effectiveness
of our strategies on several image datasets, i.e. UCI and CIFAR-10, using SVM
and deep neural networks. Our evaluation shows that our on-line label
aggregation with confusion matrix estimation reduces the error rate of labels
by over 30%. Furthermore, relabeling only 10% of the data using the expert's
results in over 90% classification accuracy with SVM.
- Abstract(参考訳): リアルタイムデータセットのラベリングは時間を要するが、教師あり機械学習モデルには不可欠である。
一般的な解決策は、クラウドソーシングを通じて多数の非専門家にラベル付けタスクを配布することだ。
群衆労働者の背景や経験の相違から,得られたラベルは誤りが多く,学習モデルにも有害である。
本稿では,ディープモデルと人間専門家を組み合わせたハイブリッドインテリジェンスを用いて,特にオンラインシナリオにおいて,ノイズの多いクラウドソースデータからエンドツーエンドの学習フレームワークを設計する。
まず,非熟練者からのノイズの多いラベルの課題に対処し,複数の注釈者から学ぶ最先端のソリューションを要約する。
ラベルアグリゲーションは、アノテーションの混乱行列を推定して学習プロセスを改善するのにどのように役立つかを示す。
さらに,専門家のラベラーや分類器の助けを借りて,高度に有意なサンプルの集計ラベルをクリーン化し,最終的な分類精度を向上させる。
SVMとディープニューラルネットワークを用いて,UCIとCIFAR-10という画像データセット上での戦略の有効性を示す。
評価の結果,混乱行列推定によるオンラインラベルアグリゲーションはラベルの誤差率を30%以上減少させることがわかった。
さらに、SVMで90%以上の分類精度が得られるのは、専門家の結果によるデータの10%のみである。
関連論文リスト
- ERASE: Error-Resilient Representation Learning on Graphs for Label Noise
Tolerance [53.73316938815873]
本稿では, ERASE (Error-Resilient representation learning on graphs for lAbel noiSe tolerancE) という手法を提案する。
ERASEは、プロトタイプの擬似ラベルとプロパゲーションされた識別ラベルを組み合わせて、表現をエラーレジリエンスで更新する。
提案手法は, 広い雑音レベルにおいて, 複数のベースラインをクリアマージンで上回り, 高いスケーラビリティを享受できる。
論文 参考訳(メタデータ) (2023-12-13T17:59:07Z) - Virtual Category Learning: A Semi-Supervised Learning Method for Dense
Prediction with Extremely Limited Labels [63.16824565919966]
本稿では,ラベルの修正を伴わずに,混乱したサンプルを積極的に使用することを提案する。
仮想カテゴリー(VC)は、モデルの最適化に安全に貢献できるように、各混乱したサンプルに割り当てられる。
私たちの興味深い発見は、密集した視覚タスクにおけるVC学習の利用に注目しています。
論文 参考訳(メタデータ) (2023-12-02T16:23:52Z) - Crowd-Certain: Label Aggregation in Crowdsourced and Ensemble Learning
Classification [0.0]
クラウドソースおよびアンサンブル学習分類タスクにおけるラベルアグリゲーションのための新しいアプローチであるCrowd-Certainを紹介する。
提案手法は,アノテータと訓練された分類器の整合性を利用して,各アノテータの信頼性スコアを決定する。
我々は10の異なるデータセットにまたがる10の既存手法に対するアプローチを広範囲に評価し、それぞれに異なる数のアノテータをラベル付けした。
論文 参考訳(メタデータ) (2023-10-25T01:58:37Z) - A Benchmark Generative Probabilistic Model for Weak Supervised Learning [2.0257616108612373]
アノテーションの負担を軽減するために、弱監視学習アプローチが開発されている。
遅延変数モデル(PLVM)が4つのデータセット間で最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2023-03-31T07:06:24Z) - Is margin all you need? An extensive empirical study of active learning
on tabular data [66.18464006872345]
我々は,OpenML-CC18ベンチマークを用いて,69の実世界のデータセット上での各種能動学習アルゴリズムの性能を解析した。
意外なことに、古典的なマージンサンプリング技術は、現在の最先端技術を含む、他のすべてのものよりも優れている。
論文 参考訳(メタデータ) (2022-10-07T21:18:24Z) - Learning from Label Proportions by Learning with Label Noise [30.7933303912474]
ラベル比例(LLP)からの学習は、データポイントをバッグに分類する弱い教師付き分類問題である。
ラベル雑音による学習の低減に基づくLLPに対する理論的基礎的なアプローチを提案する。
このアプローチは、複数のデータセットやアーキテクチャにわたるディープラーニングシナリオにおける経験的パフォーマンスの向上を実証する。
論文 参考訳(メタデータ) (2022-03-04T18:52:21Z) - Improving Contrastive Learning on Imbalanced Seed Data via Open-World
Sampling [96.8742582581744]
我々は、Model-Aware K-center (MAK)と呼ばれるオープンワールドなラベルなしデータサンプリングフレームワークを提案する。
MAKは、尾性、近接性、多様性の3つの単純な原則に従う。
我々はMAKが学習した機能の全体的な表現品質とクラスバランス性の両方を継続的に改善できることを実証した。
論文 参考訳(メタデータ) (2021-11-01T15:09:41Z) - Boosting Semi-Supervised Face Recognition with Noise Robustness [54.342992887966616]
本稿では,自動ラベルによるラベル雑音に対して頑健な半教師付き顔認識に対する効果的な解法を提案する。
そこで我々は,gnが強化するロバストな学習能力に基づく,ノイズロバスト学習ラベリング(nroll)という,半教師付き顔認識ソリューションを開発した。
論文 参考訳(メタデータ) (2021-05-10T14:43:11Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z) - OpinionRank: Extracting Ground Truth Labels from Unreliable Expert
Opinions with Graph-Based Spectral Ranking [2.1930130356902207]
クラウドソーシングは、分散ラベルコレクションを実行するための、ポピュラーで安価で効率的なデータマイニングソリューションとして登場した。
我々は、クラウドソースアノテーションを信頼できるラベルに統合するための、モデルフリーで解釈可能なグラフベースのスペクトルアルゴリズムであるOpinionRankを提案する。
実験の結果,より高パラメータ化アルゴリズムと比較した場合,OpinionRankが好適に動作することがわかった。
論文 参考訳(メタデータ) (2021-02-11T08:12:44Z) - Active Learning for Noisy Data Streams Using Weak and Strong Labelers [3.9370369973510746]
我々は、人間のラベリング能力に触発された、新しい弱くて強力なラベリング問題を考える。
そこで本研究では,フィルタリング,多様性の追加,情報的サンプル選択,ラベル抽出の4段階からなるオンライン能動学習アルゴリズムを提案する。
我々は,個々のサンプルの情報とモデル信頼度を組み合わせることで,情報ゲインを測定する決定関数を導出する。
論文 参考訳(メタデータ) (2020-10-27T09:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。