論文の概要: OpinionRank: Extracting Ground Truth Labels from Unreliable Expert
Opinions with Graph-Based Spectral Ranking
- arxiv url: http://arxiv.org/abs/2102.05884v1
- Date: Thu, 11 Feb 2021 08:12:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-12 14:12:26.352768
- Title: OpinionRank: Extracting Ground Truth Labels from Unreliable Expert
Opinions with Graph-Based Spectral Ranking
- Title(参考訳): OpinionRank: グラフベースのスペクトルランク付けによる信頼できないエキスパートオピニオンからの基底真理ラベルの抽出
- Authors: Glenn Dawson and Robi Polikar
- Abstract要約: クラウドソーシングは、分散ラベルコレクションを実行するための、ポピュラーで安価で効率的なデータマイニングソリューションとして登場した。
我々は、クラウドソースアノテーションを信頼できるラベルに統合するための、モデルフリーで解釈可能なグラフベースのスペクトルアルゴリズムであるOpinionRankを提案する。
実験の結果,より高パラメータ化アルゴリズムと比較した場合,OpinionRankが好適に動作することがわかった。
- 参考スコア(独自算出の注目度): 2.1930130356902207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As larger and more comprehensive datasets become standard in contemporary
machine learning, it becomes increasingly more difficult to obtain reliable,
trustworthy label information with which to train sophisticated models. To
address this problem, crowdsourcing has emerged as a popular, inexpensive, and
efficient data mining solution for performing distributed label collection.
However, crowdsourced annotations are inherently untrustworthy, as the labels
are provided by anonymous volunteers who may have varying, unreliable
expertise. Worse yet, some participants on commonly used platforms such as
Amazon Mechanical Turk may be adversarial, and provide intentionally incorrect
label information without the end user's knowledge. We discuss three
conventional models of the label generation process, describing their
parameterizations and the model-based approaches used to solve them. We then
propose OpinionRank, a model-free, interpretable, graph-based spectral
algorithm for integrating crowdsourced annotations into reliable labels for
performing supervised or semi-supervised learning. Our experiments show that
OpinionRank performs favorably when compared against more highly parameterized
algorithms. We also show that OpinionRank is scalable to very large datasets
and numbers of label sources, and requires considerably less computational
resources than previous approaches.
- Abstract(参考訳): 大規模で包括的なデータセットが現代の機械学習で標準になるにつれて、高度なモデルを訓練するための信頼できる信頼できるラベル情報を得るのがますます難しくなっている。
この問題に対処するため、クラウドソーシングは、分散ラベル収集を行うためのポピュラーで安価で効率的なデータマイニングソリューションとして登場した。
しかし、クラウドソーシングされたアノテーションは本質的に信頼できないものであり、ラベルは様々な信頼できない専門知識を持つ匿名のボランティアによって提供される。
さらに悪いことに、Amazon Mechanical Turkのような一般的なプラットフォーム上の一部の参加者は敵対的であり、エンドユーザーの知識なしに意図的にラベル情報を提供する。
ラベル生成プロセスの従来の3つのモデルについて,パラメータ化とそれを解決するモデルベースアプローチについて述べる。
クラウドソースのアノテーションを信頼できるラベルに統合し,教師付きあるいは半教師付き学習を行うための,モデルフリーで解釈可能なグラフベースのスペクトルアルゴリズムである opinionrank を提案する。
実験の結果,より高パラメータ化アルゴリズムと比較した場合, opinionrank は好成績を示した。
opinionrankは、非常に大きなデータセットとラベルソースの数にスケーラブルであり、以前のアプローチに比べて計算リソースが大幅に少ないことも示しています。
関連論文リスト
- Coupled Confusion Correction: Learning from Crowds with Sparse
Annotations [43.94012824749425]
2つのモデルで学習した融合行列は、他のモデルの蒸留データによって補正することができる。
我々は、類似の専門知識を共有するアノテータグループの'をクラスタ化し、それらの混乱行列を一緒に修正できるようにします。
論文 参考訳(メタデータ) (2023-12-12T14:47:26Z) - XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - Going Beyond One-Hot Encoding in Classification: Can Human Uncertainty
Improve Model Performance? [14.610038284393166]
ラベルの不確実性は、分散ラベルを介してトレーニングプロセスに明示的に組み込まれていることを示す。
ラベルの不確実性の取り込みは、モデルが見つからないデータをより一般化し、モデルの性能を向上させるのに役立ちます。
既存のキャリブレーション法と同様に、分布ラベルはより良いキャリブレーションの確率をもたらし、それによってより確実で信頼できる予測が得られる。
論文 参考訳(メタデータ) (2022-05-30T17:19:11Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Learning with Noisy Labels by Targeted Relabeling [52.0329205268734]
クラウドソーシングプラットフォームは、ディープニューラルネットワークをトレーニングするためのデータセット収集によく使用される。
本稿では,少数のアノテーションを予約して,高い確率でラベル付け可能なエラーを明示的に緩和する手法を提案する。
論文 参考訳(メタデータ) (2021-10-15T20:37:29Z) - Confident in the Crowd: Bayesian Inference to Improve Data Labelling in
Crowdsourcing [0.30458514384586394]
我々は,コスト削減を図りながら,ラベルの品質を向上させる新しい手法を提案する。
本稿では,ベイズ推定などのより洗練された手法を用いてラベルラの性能を計測する。
提案手法は,群集内で不一致が発生した場合に高い信頼性を維持しつつ,コストと精度の両方で標準的な投票方法より優れる。
論文 参考訳(メタデータ) (2021-05-28T17:09:45Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z) - CrowdTeacher: Robust Co-teaching with Noisy Answers & Sample-specific
Perturbations for Tabular Data [8.276156981100364]
コティーチング手法は、ノイズの多いラベルによるコンピュータビジョン問題に対する有望な改善を示している。
我々のモデルであるcrowdteacherは、入力空間モデルのロバスト性がノイズラベルの分類器の摂動を改善することができるという考えを採用している。
合成データと実データの両方でCrowdTeacherを用いて予測能力の向上を示す。
論文 参考訳(メタデータ) (2021-03-31T15:09:38Z) - Bayesian Semi-supervised Crowdsourcing [71.20185379303479]
クラウドソーシングは、大規模なデータセットを効率的にラベル付けし、さまざまな学習タスクを実行するための強力なパラダイムとして登場した。
この研究は、半スーパービジョンの2つの体制の下で、半教師付きクラウドソース分類を扱う。
論文 参考訳(メタデータ) (2020-12-20T23:18:51Z) - End-to-End Learning from Noisy Crowd to Supervised Machine Learning
Models [6.278267504352446]
我々は、ハイブリッドインテリジェンス、すなわち深層モデルと人間の専門家を組み合わせることで、ノイズの多いクラウドソースデータからエンドツーエンドの学習フレームワークを設計することを提唱する。
ラベルアグリゲーションは,アノテータの混乱行列を推定して学習プロセスを改善することにより,どのような効果があるかを示す。
我々は、SVMとディープニューラルネットワークを用いて、複数の画像データセット上での戦略の有効性を実証する。
論文 参考訳(メタデータ) (2020-11-13T09:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。