論文の概要: A Provably Improved Algorithm for Crowdsourcing with Hard and Easy Tasks
- arxiv url: http://arxiv.org/abs/2302.07393v1
- Date: Tue, 14 Feb 2023 23:30:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-16 16:20:25.899935
- Title: A Provably Improved Algorithm for Crowdsourcing with Hard and Easy Tasks
- Title(参考訳): 難易度と容易性を考慮したクラウドソーシングアルゴリズム
- Authors: Seo Taek Kong, Saptarshi Mandal, Dimitrios Katselis, R. Srikant
- Abstract要約: 我々は、各作業者がタスクの種類に応じて2つのレベルの精度を示すことができるクラウドソーシングアプリケーションによって動機付けられている。
従来のDawid-Skeneモデル用に設計されたアルゴリズムをこのようなシナリオに適用すると、ハードタスクによって制限されたパフォーマンスが得られる。
クラウドソーシングされたデータに様々な難易度のあるタスクが含まれている場合、我々のアルゴリズムは、どのダウィド・スキーアルゴリズムよりも高い精度で真のラベルを推測する。
- 参考スコア(独自算出の注目度): 7.822210329345705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Crowdsourcing is a popular method used to estimate ground-truth labels by
collecting noisy labels from workers. In this work, we are motivated by
crowdsourcing applications where each worker can exhibit two levels of accuracy
depending on a task's type. Applying algorithms designed for the traditional
Dawid-Skene model to such a scenario results in performance which is limited by
the hard tasks. Therefore, we first extend the model to allow worker accuracy
to vary depending on a task's unknown type. Then we propose a spectral method
to partition tasks by type. After separating tasks by type, any Dawid-Skene
algorithm (i.e., any algorithm designed for the Dawid-Skene model) can be
applied independently to each type to infer the truth values. We theoretically
prove that when crowdsourced data contain tasks with varying levels of
difficulty, our algorithm infers the true labels with higher accuracy than any
Dawid-Skene algorithm. Experiments show that our method is effective in
practical applications.
- Abstract(参考訳): クラウドソーシング(Crowdsourcing)は、労働者からノイズの多いラベルを収集することで、地道ラベルを推定する一般的な方法である。
本研究は,各作業者がタスクの種類に応じて2段階の精度を発揮できるクラウドソーシングアプリケーションによって動機付けられている。
従来のDawid-Skeneモデル用に設計されたアルゴリズムをこのようなシナリオに適用すると、ハードタスクによって制限されたパフォーマンスが得られる。
そこで我々はまず,タスクの未知のタイプによって作業者の精度が変化するようにモデルを拡張した。
次に,タスクをタイプ別に分割するスペクトル法を提案する。
タスクをタイプ別に分離した後、任意のダウィド・スキーアルゴリズム(すなわちダウィド・スキーモデル用に設計されたアルゴリズム)はそれぞれのタイプに独立して真理値を推測することができる。
クラウドソースされたデータに様々な難易度を持つタスクが含まれている場合、このアルゴリズムはダウィド・スキーンアルゴリズムよりも高い精度で真のラベルを推定する。
実験の結果,本手法は実用的応用に有効であることがわかった。
関連論文リスト
- A Dataset for the Validation of Truth Inference Algorithms Suitable for Online Deployment [76.04306818209753]
実世界のクラウドソーシングプラットフォームから収集した,実質的なクラウドソーシングアノテーションデータセットを紹介する。
このデータセットは、約2万のワーカー、100万のタスク、600万のアノテーションで構成されている。
本データセットにおけるいくつかの代表的真理推論アルゴリズムの有効性を評価する。
論文 参考訳(メタデータ) (2024-03-10T16:00:41Z) - Robust Assignment of Labels for Active Learning with Sparse and Noisy
Annotations [0.17188280334580192]
監視された分類アルゴリズムは、世界中の多くの現実の問題を解決するために使用される。
残念なことに、多くのタスクに対して良質なアノテーションを取得することは、実際に行うには不可能か、あるいはコストがかかりすぎます。
サンプル空間のラベルのない部分を利用する2つの新しいアノテーション統一アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-25T19:40:41Z) - A Gold Standard Dataset for the Reviewer Assignment Problem [117.59690218507565]
類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。
私たちのデータセットは、58人の研究者による477の自己申告された専門知識スコアで構成されています。
2つの論文をレビュアーに関連付けるタスクは、簡単なケースでは12%~30%、ハードケースでは36%~43%である。
論文 参考訳(メタデータ) (2023-03-23T16:15:03Z) - Recovering Top-Two Answers and Confusion Probability in Multi-Choice
Crowdsourcing [10.508187462682308]
我々は,クラウドソーシングの課題を,基礎的真理だけでなく,最も紛らわしい回答と混乱確率の回復を目標として検討している。
本稿では,各タスクの上位2つの答えが,他の選択肢と区別されるモデルを提案する。
このモデルでは、上位2つの答えと混乱確率の両方を推測する2段階の推論アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-29T09:46:39Z) - Multi-task Bias-Variance Trade-off Through Functional Constraints [102.64082402388192]
マルチタスク学習は、多様なタスクによく機能する関数の集合を取得することを目的としている。
本稿では,2つの極端な学習シナリオ,すなわちすべてのタスクに対する単一関数と,他のタスクを無視するタスク固有関数から直感を抽出する。
本稿では,集中関数に対するドメイン固有解を強制する制約付き学習定式化を導入する。
論文 参考訳(メタデータ) (2022-10-27T16:06:47Z) - Active Multi-Task Representation Learning [50.13453053304159]
本研究は,アクティブラーニングの手法を活用することで,資源タスクのサンプリングに関する最初の公式な研究を行う。
提案手法は, 対象タスクに対する各ソースタスクの関連性を反復的に推定し, その関連性に基づいて各ソースタスクからサンプルを抽出するアルゴリズムである。
論文 参考訳(メタデータ) (2022-02-02T08:23:24Z) - A Worker-Task Specialization Model for Crowdsourcing: Efficient
Inference and Fundamental Limits [20.955889997204693]
クラウドソーシングシステムは、専門家でない労働者を用いて比較的低コストでデータをラベル付けするための効果的なプラットフォームとして登場した。
本稿では、各タスクとワーカーが独自の(未知の)タイプを持つ、$d$-type Specialization modelという新しいモデルを検討する。
本稿では,タスクの種類や作業者のタイプが不明な場合でも,順序的に最適限を満たすラベル推論アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-19T05:32:59Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z) - Adaptive Task Sampling for Meta-Learning [79.61146834134459]
数ショットの分類のためのメタラーニングの鍵となるアイデアは、テスト時に直面した数ショットの状況を模倣することである。
一般化性能を向上させるための適応型タスクサンプリング手法を提案する。
論文 参考訳(メタデータ) (2020-07-17T03:15:53Z) - Variational Bayesian Inference for Crowdsourcing Predictions [6.878219199575748]
2つの異なる作業者ノイズモデルに対する変分ベイズ手法を開発した。
合成および実世界のデータセットに対する我々の評価は、これらの手法が既存の非ベイズ的手法よりもはるかに優れていることを示している。
論文 参考訳(メタデータ) (2020-06-01T08:11:50Z) - Crowdsourced Labeling for Worker-Task Specialization Model [14.315501760755605]
我々は、$d$タイプのワーカータスク特化モデルに基づくクラウドソースラベリングについて検討する。
我々は,作業者クラスタリング,作業者スキル推定,多数決の重み付けによる二元的タスクラベルを復元する推論アルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-03-21T13:27:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。