論文の概要: Confident in the Crowd: Bayesian Inference to Improve Data Labelling in
Crowdsourcing
- arxiv url: http://arxiv.org/abs/2105.13984v1
- Date: Fri, 28 May 2021 17:09:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-31 13:47:30.400088
- Title: Confident in the Crowd: Bayesian Inference to Improve Data Labelling in
Crowdsourcing
- Title(参考訳): クラウドソーシングにおけるデータラベリング改善のためのベイジアン推論
- Authors: Pierce Burke and Richard Klein
- Abstract要約: 我々は,コスト削減を図りながら,ラベルの品質を向上させる新しい手法を提案する。
本稿では,ベイズ推定などのより洗練された手法を用いてラベルラの性能を計測する。
提案手法は,群集内で不一致が発生した場合に高い信頼性を維持しつつ,コストと精度の両方で標準的な投票方法より優れる。
- 参考スコア(独自算出の注目度): 0.30458514384586394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increased interest in machine learning and big data problems, the
need for large amounts of labelled data has also grown. However, it is often
infeasible to get experts to label all of this data, which leads many
practitioners to crowdsourcing solutions. In this paper, we present new
techniques to improve the quality of the labels while attempting to reduce the
cost. The naive approach to assigning labels is to adopt a majority vote
method, however, in the context of data labelling, this is not always ideal as
data labellers are not equally reliable. One might, instead, give higher
priority to certain labellers through some kind of weighted vote based on past
performance. This paper investigates the use of more sophisticated methods,
such as Bayesian inference, to measure the performance of the labellers as well
as the confidence of each label. The methods we propose follow an iterative
improvement algorithm which attempts to use the least amount of workers
necessary to achieve the desired confidence in the inferred label. This paper
explores simulated binary classification problems with simulated workers and
questions to test the proposed methods. Our methods outperform the standard
voting methods in both cost and accuracy while maintaining higher reliability
when there is disagreement within the crowd.
- Abstract(参考訳): 機械学習やビッグデータ問題への関心が高まり、大量のラベル付きデータの必要性も高まっている。
しかし、専門家にすべてのデータをラベル付けさせることは、しばしば不可能であり、多くの実践者がクラウドソーシングソリューションに繋がる。
本稿では,コスト削減を図りながら,ラベルの品質を向上させる新しい手法を提案する。
ラベルを割り当てるナイーブなアプローチは多数決方式を採用することであるが、データラベリングの文脈では、データラベラーが等しく信頼できないため、これは必ずしも理想的ではない。
むしろ、過去のパフォーマンスに基づいた何らかの重み付け投票を通じて、特定のラベルラーにより高い優先順位を与えるかもしれない。
本稿では,ラベルラベラーの性能とラベルの信頼度を測定するために,ベイズ推論などのより洗練された手法を用いることについて検討する。
提案手法は,推定ラベルにおける所望の信頼性を達成するのに必要な作業者数を最小にしようとする反復的改善アルゴリズムに従う。
本稿では,シミュレーション作業者による二項分類問題と,提案手法を試すための質問について検討する。
提案手法は,群集内で不一致が発生した場合に高い信頼性を維持しつつ,コストと精度の両方で標準的な投票方法より優れる。
関連論文リスト
- Drawing the Same Bounding Box Twice? Coping Noisy Annotations in Object
Detection with Repeated Labels [6.872072177648135]
そこで本研究では,基礎的真理推定手法に適合する新しい局所化アルゴリズムを提案する。
また,本アルゴリズムは,TexBiGデータセット上でのトレーニングにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-18T13:08:44Z) - Robust Assignment of Labels for Active Learning with Sparse and Noisy
Annotations [0.17188280334580192]
監視された分類アルゴリズムは、世界中の多くの現実の問題を解決するために使用される。
残念なことに、多くのタスクに対して良質なアノテーションを取得することは、実際に行うには不可能か、あるいはコストがかかりすぎます。
サンプル空間のラベルのない部分を利用する2つの新しいアノテーション統一アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-25T19:40:41Z) - Partial-Label Regression [54.74984751371617]
部分ラベル学習は、弱い教師付き学習環境であり、各トレーニング例に候補ラベルのセットをアノテートすることができる。
部分ラベル学習に関する従来の研究は、候補ラベルがすべて離散的な分類設定のみに焦点を当てていた。
本稿では,各トレーニング例に実値付き候補ラベルのセットをアノテートした部分ラベル回帰を初めて検討する。
論文 参考訳(メタデータ) (2023-06-15T09:02:24Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Robust Long-Tailed Learning under Label Noise [50.00837134041317]
本研究では,長期ラベル分布におけるラベルノイズ問題について検討する。
本稿では,長期学習のための雑音検出を実現する頑健なフレームワークAlgoを提案する。
我々のフレームワークは、半教師付き学習アルゴリズムを自然に活用して一般化をさらに改善することができる。
論文 参考訳(メタデータ) (2021-08-26T03:45:00Z) - Boosting Semi-Supervised Face Recognition with Noise Robustness [54.342992887966616]
本稿では,自動ラベルによるラベル雑音に対して頑健な半教師付き顔認識に対する効果的な解法を提案する。
そこで我々は,gnが強化するロバストな学習能力に基づく,ノイズロバスト学習ラベリング(nroll)という,半教師付き顔認識ソリューションを開発した。
論文 参考訳(メタデータ) (2021-05-10T14:43:11Z) - A Novel Perspective for Positive-Unlabeled Learning via Noisy Labels [49.990938653249415]
本研究では,初期疑似ラベルを雑音ラベルデータとして用いる非ラベルデータに割り当て,雑音ラベルデータを用いて深層ニューラルネットワークを訓練する手法を提案する。
実験の結果,提案手法は,いくつかのベンチマークデータセットにおいて,最先端の手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-03-08T11:46:02Z) - OpinionRank: Extracting Ground Truth Labels from Unreliable Expert
Opinions with Graph-Based Spectral Ranking [2.1930130356902207]
クラウドソーシングは、分散ラベルコレクションを実行するための、ポピュラーで安価で効率的なデータマイニングソリューションとして登場した。
我々は、クラウドソースアノテーションを信頼できるラベルに統合するための、モデルフリーで解釈可能なグラフベースのスペクトルアルゴリズムであるOpinionRankを提案する。
実験の結果,より高パラメータ化アルゴリズムと比較した場合,OpinionRankが好適に動作することがわかった。
論文 参考訳(メタデータ) (2021-02-11T08:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。