論文の概要: Finding the Ground-Truth from Multiple Labellers: Why Parameters of the
Task Matter
- arxiv url: http://arxiv.org/abs/2102.08482v1
- Date: Tue, 16 Feb 2021 22:51:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-19 06:05:44.426535
- Title: Finding the Ground-Truth from Multiple Labellers: Why Parameters of the
Task Matter
- Title(参考訳): 複数のラベラーから基底を見つける:なぜタスクのパラメータが重要なのか
- Authors: Robert McCluskey, Amir Enshaei, Bashar Awwad Shiekh Hasan
- Abstract要約: 雇用労働者の合意を集め、地道なラベルを確立する方法が推奨された。
パラメータには、労働者の数、労働者の専門知識、分類におけるラベルの数、およびサンプルサイズが含まれます。
期待の最大化とCrowdTruthは、特定のパラメータ条件下での多数決よりも有利になる可能性が高い。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Employing multiple workers to label data for machine learning models has
become increasingly important in recent years with greater demand to collect
huge volumes of labelled data to train complex models while mitigating the risk
of incorrect and noisy labelling. Whether it is large scale data gathering on
popular crowd-sourcing platforms or smaller sets of workers in high-expertise
labelling exercises, there are various methods recommended to gather a
consensus from employed workers and establish ground-truth labels. However,
there is very little research on how the various parameters of a labelling task
can impact said methods. These parameters include the number of workers, worker
expertise, number of labels in a taxonomy and sample size. In this paper,
Majority Vote, CrowdTruth and Binomial Expectation Maximisation are
investigated against the permutations of these parameters in order to provide
better understanding of the parameter settings to give an advantage in
ground-truth inference. Findings show that both Expectation Maximisation and
CrowdTruth are only likely to give an advantage over majority vote under
certain parameter conditions, while there are many cases where the methods can
be shown to have no major impact. Guidance is given as to what parameters
methods work best under, while the experimental framework provides a way of
testing other established methods and also testing new methods that can attempt
to provide advantageous performance where the methods in this paper did not. A
greater level of understanding regarding optimal crowd-sourcing parameters is
also achieved.
- Abstract(参考訳): 近年、複雑なモデルをトレーニングするために大量のラベル付きデータを収集することや、不正でノイズの多いラベル付けのリスクを軽減し、複数のワーカーを機械学習モデルにラベル付けするために採用することがますます重要になっている。
一般のクラウドソーシングプラットフォーム上での大規模なデータ収集や、高度に専門的なラベル付け演習における小規模労働者の集合体であるにせよ、雇用者からのコンセンサスを集めるための様々な方法が推奨されている。
しかし、ラベル付けタスクの様々なパラメータがこれらの方法に与える影響についてはほとんど研究されていない。
これらのパラメータには、労働者の数、労働者の専門知識、分類におけるラベルの数、およびサンプルサイズが含まれます。
本論文では, 主観的投票, CrowdTruth および Binomial Expectation Maximization をこれらのパラメータの順列に対して検討し, パラメータ設定をよりよく理解し, 接地真理推論の優位性を与える。
結果から, 期待最大化とクラウドルースは, パラメータ条件下では多数決に勝る傾向がみられたが, 方法が大きな影響を及ぼさないことを示すケースが多数存在する。
この実験フレームワークは、他の確立されたメソッドをテストする方法を提供し、また、この論文のメソッドがなかった場合に有利なパフォーマンスを提供するために試みることができる新しいメソッドをテストする方法を提供します。
最適なクラウドソーシングパラメータに関するさらなるレベルの理解も達成されている。
関連論文リスト
- Unsupervised Estimation of Ensemble Accuracy [0.0]
いくつかの分類器の結合力を推定する手法を提案する。
ラベルに依存しない「多様性」対策に重点を置く既存のアプローチとは異なる。
本手法は,一般的な大規模顔認証データセット上で実証する。
論文 参考訳(メタデータ) (2023-11-18T02:31:36Z) - An Embarrassingly Simple Approach to Semi-Supervised Few-Shot Learning [58.59343434538218]
間接学習の観点から、ラベルなしデータの正負の擬似ラベルを正確に予測するための、単純だが非常に効果的な手法を提案する。
私たちのアプローチは、オフザシェルフ操作のみを使用することで、ほんの数行のコードで実装できます。
論文 参考訳(メタデータ) (2022-09-28T02:11:34Z) - Metadata Archaeology: Unearthing Data Subsets by Leveraging Training
Dynamics [3.9627732117855414]
メタデータ考古学のための統一的で効率的なフレームワークを提供することに注力する。
データセットに存在する可能性のあるデータのさまざまなサブセットをキュレートします。
これらのプローブスイート間の学習力学の相違を利用して、関心のメタデータを推測する。
論文 参考訳(メタデータ) (2022-09-20T21:52:39Z) - An Additive Instance-Wise Approach to Multi-class Model Interpretation [53.87578024052922]
解釈可能な機械学習は、ブラックボックスシステムの特定の予測を駆動する要因に関する洞察を提供する。
既存の手法は主に、局所的な加法的あるいはインスタンス的なアプローチに従う説明的入力特徴の選択に重点を置いている。
本研究は,両手法の長所を生かし,複数の対象クラスに対する局所的な説明を同時に学習するためのグローバルフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-07T06:50:27Z) - Robust Meta-learning with Sampling Noise and Label Noise via
Eigen-Reptile [78.1212767880785]
Meta-learnerは、利用可能なサンプルがわずかしかないため、過度に適合する傾向がある。
ノイズの多いラベルでデータを扱う場合、メタラーナーはラベルノイズに対して非常に敏感になる可能性がある。
本稿では,タスク固有のパラメータの主要な方向でメタパラメータを更新するEigen-Reptile(ER)を提案する。
論文 参考訳(メタデータ) (2022-06-04T08:48:02Z) - One Positive Label is Sufficient: Single-Positive Multi-Label Learning
with Label Enhancement [71.9401831465908]
本研究では,SPMLL (Single- positive multi-label learning) について検討した。
ラベルエンハンスメントを用いた単陽性MultIラベル学習という新しい手法を提案する。
ベンチマークデータセットの実験により,提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2022-06-01T14:26:30Z) - A Worker-Task Specialization Model for Crowdsourcing: Efficient
Inference and Fundamental Limits [20.955889997204693]
クラウドソーシングシステムは、専門家でない労働者を用いて比較的低コストでデータをラベル付けするための効果的なプラットフォームとして登場した。
本稿では、各タスクとワーカーが独自の(未知の)タイプを持つ、$d$-type Specialization modelという新しいモデルを検討する。
本稿では,タスクの種類や作業者のタイプが不明な場合でも,順序的に最適限を満たすラベル推論アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-19T05:32:59Z) - BAMLD: Bayesian Active Meta-Learning by Disagreement [39.59987601426039]
本稿では,メタトレーニングタスクのラベル付け要求数を削減するための情報理論アクティブタスク選択機構を提案する。
本稿では,既存の取得メカニズムと比較した実験結果について報告する。
論文 参考訳(メタデータ) (2021-10-19T13:06:51Z) - Towards a Unified View of Parameter-Efficient Transfer Learning [108.94786930869473]
下流タスクにおける大規模事前学習言語モデルの微調整は、NLPにおけるデファクト学習パラダイムとなっている。
近年の研究では,少数の(外部)パラメータのみを微調整するだけで高い性能が得られるパラメータ効率の伝達学習法が提案されている。
我々は、最先端のパラメータ効率変換学習手法の設計を分解し、それらの相互接続を確立する統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-08T20:22:26Z) - Confident in the Crowd: Bayesian Inference to Improve Data Labelling in
Crowdsourcing [0.30458514384586394]
我々は,コスト削減を図りながら,ラベルの品質を向上させる新しい手法を提案する。
本稿では,ベイズ推定などのより洗練された手法を用いてラベルラの性能を計測する。
提案手法は,群集内で不一致が発生した場合に高い信頼性を維持しつつ,コストと精度の両方で標準的な投票方法より優れる。
論文 参考訳(メタデータ) (2021-05-28T17:09:45Z) - Minimax Active Learning [61.729667575374606]
アクティブラーニングは、人間のアノテーションによってラベル付けされる最も代表的なサンプルをクエリすることによって、ラベル効率の高いアルゴリズムを開発することを目指している。
現在のアクティブラーニング技術は、最も不確実なサンプルを選択するためにモデルの不確実性に頼るか、クラスタリングを使うか、最も多様なラベルのないサンプルを選択するために再構築する。
我々は,不確実性と多様性を両立させる半教師付きミニマックスエントロピーに基づく能動学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-12-18T19:03:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。