論文の概要: Unsupervised Crowdsourcing with Accuracy and Cost Guarantees
- arxiv url: http://arxiv.org/abs/2207.01988v1
- Date: Tue, 5 Jul 2022 12:14:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-06 21:57:05.041875
- Title: Unsupervised Crowdsourcing with Accuracy and Cost Guarantees
- Title(参考訳): 正確性とコスト保証を備えたクラウドソーシング
- Authors: Yashvardhan Didwania, Jayakrishnan Nair, N. Hemachandra
- Abstract要約: 本稿では,二元的かつ教師なしなアイテム群分類のためのクラウドソーシングプラットフォームにおけるコスト最適利用の問題点について考察する。
本稿では,作業者からラベル予測を取得し,実際のラベルを推定するためのアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 4.008789789191313
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the problem of cost-optimal utilization of a crowdsourcing
platform for binary, unsupervised classification of a collection of items,
given a prescribed error threshold. Workers on the crowdsourcing platform are
assumed to be divided into multiple classes, based on their skill, experience,
and/or past performance. We model each worker class via an unknown confusion
matrix, and a (known) price to be paid per label prediction. For this setting,
we propose algorithms for acquiring label predictions from workers, and for
inferring the true labels of items. We prove that if the number of (unlabeled)
items available is large enough, our algorithms satisfy the prescribed error
thresholds, incurring a cost that is near-optimal. Finally, we validate our
algorithms, and some heuristics inspired by them, through an extensive case
study.
- Abstract(参考訳): 我々は,所定の誤差しきい値が与えられた場合,二元的,教師なしのアイテム群分類のためのクラウドソーシングプラットフォームのコスト最適利用の問題を考える。
クラウドソーシングプラットフォームの労働者は、スキル、経験、過去のパフォーマンスに基づいて、複数のクラスに分けられる。
各ワーカークラスを未知の混乱行列とラベル予測ごとに支払われる(既知の)価格でモデル化します。
そこで本研究では,労働者からラベル予測を取得し,アイテムの真のラベルを推測するアルゴリズムを提案する。
利用可能な(ラベルなしの)項目数が十分に大きい場合、アルゴリズムは所定の誤差閾値を満たし、ほぼ最適に近いコストがかかることを証明します。
最後に、我々のアルゴリズムとそれらに触発されたいくつかのヒューリスティックスを検証する。
関連論文リスト
- Making Binary Classification from Multiple Unlabeled Datasets Almost
Free of Supervision [128.6645627461981]
本稿では,複数ラベル付きデータセットからの2値分類という新たな問題設定を提案する。
MU-OPPOでは、ラベル付けされていないすべてのデータセットのクラスプリエントは不要です。
このフレームワークは,クラス前の推定誤差が小さくなり,バイナリ分類の性能が向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T11:33:46Z) - Enhanced Nearest Neighbor Classification for Crowdsourcing [26.19048869302787]
クラウドソーシングは、大量のデータをラベル付けする経済的な方法です。
生成されたラベルのノイズは、ラベル付きデータに適用された分類法の精度を低下させる可能性がある。
本稿では, この問題を克服するために, 拡張された近傍分類器 (ENN) を提案する。
論文 参考訳(メタデータ) (2022-02-26T22:53:52Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Learning with Proper Partial Labels [87.65718705642819]
部分ラベル学習は、不正確なラベルを持つ弱い教師付き学習の一種である。
この適切な部分ラベル学習フレームワークには,従来の部分ラベル学習設定が数多く含まれていることを示す。
次に、分類リスクの統一的非バイアス推定器を導出する。
論文 参考訳(メタデータ) (2021-12-23T01:37:03Z) - Active clustering for labeling training data [0.8029049649310211]
本稿では,人間専門家がペアワイズクエリに応答する比較的安価なタスクを実行するための,データ収集のトレーニング環境を提案する。
我々は、アイテムをクラスタリングし、その複雑さを分析するのに必要なクエリの平均数を最小化するアルゴリズムを解析する。
論文 参考訳(メタデータ) (2021-10-27T15:35:58Z) - Learning with Noisy Labels by Targeted Relabeling [52.0329205268734]
クラウドソーシングプラットフォームは、ディープニューラルネットワークをトレーニングするためのデータセット収集によく使用される。
本稿では,少数のアノテーションを予約して,高い確率でラベル付け可能なエラーを明示的に緩和する手法を提案する。
論文 参考訳(メタデータ) (2021-10-15T20:37:29Z) - Cost-Accuracy Aware Adaptive Labeling for Active Learning [9.761953860259942]
多くの実環境において、異なるラベルには異なるラベルのコストがあり、異なるラベルの精度が得られる。
本稿では, インスタンス, ラベル付け者と対応するコストを選択し, ラベル付け精度を向上するための新しいアルゴリズムを提案する。
提案アルゴリズムは,5つのUCIおよび実際のクラウドソーシングデータセット上での最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-05-24T17:21:00Z) - Disentangling Sampling and Labeling Bias for Learning in Large-Output
Spaces [64.23172847182109]
異なる負のサンプリングスキームが支配的ラベルと稀なラベルで暗黙的にトレードオフパフォーマンスを示す。
すべてのラベルのサブセットで作業することで生じるサンプリングバイアスと、ラベルの不均衡に起因するデータ固有のラベルバイアスの両方に明示的に対処する統一された手段を提供する。
論文 参考訳(メタデータ) (2021-05-12T15:40:13Z) - Minimax Active Learning [61.729667575374606]
アクティブラーニングは、人間のアノテーションによってラベル付けされる最も代表的なサンプルをクエリすることによって、ラベル効率の高いアルゴリズムを開発することを目指している。
現在のアクティブラーニング技術は、最も不確実なサンプルを選択するためにモデルの不確実性に頼るか、クラスタリングを使うか、最も多様なラベルのないサンプルを選択するために再構築する。
我々は,不確実性と多様性を両立させる半教師付きミニマックスエントロピーに基づく能動学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-12-18T19:03:40Z) - Active Learning for Noisy Data Streams Using Weak and Strong Labelers [3.9370369973510746]
我々は、人間のラベリング能力に触発された、新しい弱くて強力なラベリング問題を考える。
そこで本研究では,フィルタリング,多様性の追加,情報的サンプル選択,ラベル抽出の4段階からなるオンライン能動学習アルゴリズムを提案する。
我々は,個々のサンプルの情報とモデル信頼度を組み合わせることで,情報ゲインを測定する決定関数を導出する。
論文 参考訳(メタデータ) (2020-10-27T09:18:35Z) - Global Multiclass Classification and Dataset Construction via
Heterogeneous Local Experts [37.27708297562079]
得られたデータセットの信頼性を確保しながら、ラベルの数を最小化する方法を示す。
MNISTとCIFAR-10データセットを用いた実験では、アグリゲーション方式の良好な精度が示されている。
論文 参考訳(メタデータ) (2020-05-21T18:07:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。