論文の概要: Recovering Top-Two Answers and Confusion Probability in Multi-Choice
Crowdsourcing
- arxiv url: http://arxiv.org/abs/2301.00006v1
- Date: Thu, 29 Dec 2022 09:46:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 14:44:42.749628
- Title: Recovering Top-Two Answers and Confusion Probability in Multi-Choice
Crowdsourcing
- Title(参考訳): マルチコースクラウドソーシングにおけるトップ2回答とコンフュージョン確率の回復
- Authors: Hyeonsu Jeong and Hye Won Chung
- Abstract要約: 我々は,クラウドソースによるラベル付けを,基礎的真実だけでなく,最も紛らわしい回答と混乱確率の回復を目標に考える。
本稿では,各タスクに最上位2つの答えがあり,他の選択と区別されるモデルを提案する。
本モデルでは,上位2つの解と混同確率を推定する2段階の推論アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 10.508187462682308
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Crowdsourcing has emerged as an effective platform to label a large volume of
data in a cost- and time-efficient manner. Most previous works have focused on
designing an efficient algorithm to recover only the ground-truth labels of the
data. In this paper, we consider multi-choice crowdsourced labeling with the
goal of recovering not only the ground truth but also the most confusing answer
and the confusion probability. The most confusing answer provides useful
information about the task by revealing the most plausible answer other than
the ground truth and how plausible it is. To theoretically analyze such
scenarios, we propose a model where there are top-two plausible answers for
each task, distinguished from the rest of choices. Task difficulty is
quantified by the confusion probability between the top two, and worker
reliability is quantified by the probability of giving an answer among the top
two. Under this model, we propose a two-stage inference algorithm to infer the
top-two answers as well as the confusion probability. We show that our
algorithm achieves the minimax optimal convergence rate. We conduct both
synthetic and real-data experiments and demonstrate that our algorithm
outperforms other recent algorithms. We also show the applicability of our
algorithms in inferring the difficulty of tasks and training neural networks
with the soft labels composed of the top-two most plausible classes.
- Abstract(参考訳): クラウドソーシングは、大量のデータをコストと時間効率でラベル付けする効果的なプラットフォームとして登場した。
これまでのほとんどの作品は、データの接地ラベルのみを復元する効率的なアルゴリズムの設計に重点を置いてきた。
本稿では,本論文では,根拠の真理だけでなく,最も紛らわしい答えと混乱の確率を回復する目的で,マルチチョース・クラウドソーシングによるラベリングを考える。
もっとも紛らわしい答えは、基礎的な真実とそれがいかに妥当であるか以外の最も妥当な答えを明らかにすることで、タスクに関する有用な情報を提供する。
このようなシナリオを理論的に解析するために,各タスクに最上位2つの答えが存在するモデルを提案する。
作業難易度は上位2つの混乱確率によって定量化され、上位2つの回答の確率によって作業者の信頼性が定量化される。
本モデルでは,上位2つの解と混同確率を推定する2段階の推論アルゴリズムを提案する。
このアルゴリズムが最小最適収束率を達成することを示す。
我々は、合成データと実データの両方の実験を行い、我々のアルゴリズムが他の最近のアルゴリズムより優れていることを示す。
また、タスクの難易度を推測し、最上位2クラスからなるソフトラベルを用いてニューラルネットワークを訓練するアルゴリズムの適用性を示す。
関連論文リスト
- The Battleship Approach to the Low Resource Entity Matching Problem [0.0]
本稿では,エンティティマッチング問題に対する新しいアクティブな学習手法を提案する。
我々は、エンティティマッチングのユニークな特性を利用する選択メカニズムに焦点を当てる。
実験により,提案アルゴリズムは,最先端のアクティブ・ラーニング・ソリューションより低リソース・エンティティ・マッチングに優れることを示した。
論文 参考訳(メタデータ) (2023-11-27T10:18:17Z) - Optimal and Efficient Binary Questioning for Human-in-the-Loop
Annotation [11.4375764457726]
本稿では,アノテートされたデータに予測器を付与するという,無視された相補的問題を考察する。
単純な二項分類設定では、最適一般解から実用的な方法まで幅広いスペクトルを提示する。
論文 参考訳(メタデータ) (2023-07-04T09:11:33Z) - Active Ranking of Experts Based on their Performances in Many Tasks [72.96112117037465]
我々は、dタスクのパフォーマンスに基づいて、n名のエキスパートをランク付けする問題を考察する。
我々は,各専門家のペアに対して,各タスクにおいて他方よりも優れているという,単調な仮定を定めている。
論文 参考訳(メタデータ) (2023-06-05T06:55:39Z) - Efficient Approximate Recovery from Pooled Data Using Doubly Regular
Pooling Schemes [1.7403133838762448]
隠れたビットをグリーディーな方法で推定する近似再構成アルゴリズムを解析する。
我々の分析はノイズの度合いと$sigma$の空間性に一様である。
論文 参考訳(メタデータ) (2023-02-28T19:31:40Z) - Multi-task Bias-Variance Trade-off Through Functional Constraints [102.64082402388192]
マルチタスク学習は、多様なタスクによく機能する関数の集合を取得することを目的としている。
本稿では,2つの極端な学習シナリオ,すなわちすべてのタスクに対する単一関数と,他のタスクを無視するタスク固有関数から直感を抽出する。
本稿では,集中関数に対するドメイン固有解を強制する制約付き学習定式化を導入する。
論文 参考訳(メタデータ) (2022-10-27T16:06:47Z) - Sample Selection for Fair and Robust Training [28.94276265328868]
公平でロバストなトレーニングのためのサンプル選択に基づくアルゴリズムを提案する。
提案アルゴリズムは,最先端技術に匹敵する公平性と堅牢性が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T07:17:29Z) - Efficient First-Order Contextual Bandits: Prediction, Allocation, and
Triangular Discrimination [82.52105963476703]
統計的学習、オンライン学習、その他における繰り返しのテーマは、低騒音の問題に対してより速い収束率が可能であることである。
1次保証は統計的およびオンライン学習において比較的よく理解されている。
三角識別と呼ばれる対数損失と情報理論量が一階保証を得る上で基本的な役割を担っていることを示す。
論文 参考訳(メタデータ) (2021-07-05T19:20:34Z) - Online Active Model Selection for Pre-trained Classifiers [72.84853880948894]
我々は,任意のラウンドにおいて高い確率で最良のモデルをラベル付けし,出力する情報的サンプルを積極的に選択するオンライン選択的サンプリング手法を設計する。
我々のアルゴリズムは、敵とストリームの両方のオンライン予測タスクに利用できる。
論文 参考訳(メタデータ) (2020-10-19T19:53:15Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - Byzantine-Robust Learning on Heterogeneous Datasets via Bucketing [55.012801269326594]
ビザンチンの堅牢な分散学習では、中央サーバは、複数のワーカーに分散したデータよりも、機械学習モデルを訓練したい。
これらの労働者のごく一部は、所定のアルゴリズムから逸脱し、任意のメッセージを送ることができる。
本稿では,既存のロバストなアルゴリズムを無視可能な計算コストでヘテロジニアスなデータセットに適応させる,シンプルなバケット方式を提案する。
論文 参考訳(メタデータ) (2020-06-16T17:58:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。