論文の概要: Enhanced Nearest Neighbor Classification for Crowdsourcing
- arxiv url: http://arxiv.org/abs/2203.00781v1
- Date: Sat, 26 Feb 2022 22:53:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-03 14:19:16.872936
- Title: Enhanced Nearest Neighbor Classification for Crowdsourcing
- Title(参考訳): クラウドソーシングのための近隣地域分類の強化
- Authors: Jiexin Duan, Xingye Qiao, Guang Cheng
- Abstract要約: クラウドソーシングは、大量のデータをラベル付けする経済的な方法です。
生成されたラベルのノイズは、ラベル付きデータに適用された分類法の精度を低下させる可能性がある。
本稿では, この問題を克服するために, 拡張された近傍分類器 (ENN) を提案する。
- 参考スコア(独自算出の注目度): 26.19048869302787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In machine learning, crowdsourcing is an economical way to label a large
amount of data. However, the noise in the produced labels may deteriorate the
accuracy of any classification method applied to the labelled data. We propose
an enhanced nearest neighbor classifier (ENN) to overcome this issue. Two
algorithms are developed to estimate the worker quality (which is often unknown
in practice): one is to construct the estimate based on the denoised worker
labels by applying the $k$NN classifier to the expert data; the other is an
iterative algorithm that works even without access to the expert data. Other
than strong numerical evidence, our proposed methods are proven to achieve the
same regret as its oracle version based on high-quality expert data. As a
technical by-product, a lower bound on the sample size assigned to each worker
to reach the optimal convergence rate of regret is derived.
- Abstract(参考訳): 機械学習では、クラウドソーシングは大量のデータをラベル付けする経済的な方法だ。
しかし、生成ラベルのノイズはラベル付きデータに適用された分類法の精度を低下させる可能性がある。
我々は,この問題を克服するためにenn(extended closest neighbor classifier)を提案する。
1つは、専門家データに$k$NNの分類器を適用することで、分類された労働者ラベルに基づいて見積もりを構築することであり、もう1つは、専門家データにアクセスしなくても機能する反復アルゴリズムである。
提案手法は,強い数値的証拠以外に,高品質な専門家データに基づくオラクル版と同様の後悔を味わえることが証明されている。
技術的副産物として、後悔の最適収束率に達するために各作業員に割り当てられたサンプルサイズの下限を導出する。
関連論文リスト
- Improving a Named Entity Recognizer Trained on Noisy Data with a Few
Clean Instances [55.37242480995541]
クリーンなインスタンスの小さなセットから,ノイズの多いNERデータを誘導することで,ノイズを発生させる手法を提案する。
メインのNERモデルとともに、判別器モデルをトレーニングし、その出力を使用してサンプルの重み付けを校正します。
クラウドソーシングと遠隔監視データセットの結果から,提案手法は少ないガイダンスセットで継続的に性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2023-10-25T17:23:37Z) - XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - Unsupervised Crowdsourcing with Accuracy and Cost Guarantees [4.008789789191313]
本稿では,二元的かつ教師なしなアイテム群分類のためのクラウドソーシングプラットフォームにおけるコスト最適利用の問題点について考察する。
本稿では,作業者からラベル予測を取得し,実際のラベルを推定するためのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-05T12:14:11Z) - Active learning for reducing labeling effort in text classification
tasks [3.8424737607413153]
アクティブラーニング(英: Active Learning, AL)は、使用済みモデルが最も有益とみなすデータのみを使用することでラベル付けの労力を削減することを目的としたパラダイムである。
本稿では,異なる不確実性に基づくアルゴリズム BERT$_base$ を比較した実験的検討を行った。
その結果,BERT$base$で不確実性に基づくALを用いることで,データのランダムサンプリングに優れることがわかった。
論文 参考訳(メタデータ) (2021-09-10T13:00:36Z) - Robust Long-Tailed Learning under Label Noise [50.00837134041317]
本研究では,長期ラベル分布におけるラベルノイズ問題について検討する。
本稿では,長期学習のための雑音検出を実現する頑健なフレームワークAlgoを提案する。
我々のフレームワークは、半教師付き学習アルゴリズムを自然に活用して一般化をさらに改善することができる。
論文 参考訳(メタデータ) (2021-08-26T03:45:00Z) - Confident in the Crowd: Bayesian Inference to Improve Data Labelling in
Crowdsourcing [0.30458514384586394]
我々は,コスト削減を図りながら,ラベルの品質を向上させる新しい手法を提案する。
本稿では,ベイズ推定などのより洗練された手法を用いてラベルラの性能を計測する。
提案手法は,群集内で不一致が発生した場合に高い信頼性を維持しつつ,コストと精度の両方で標準的な投票方法より優れる。
論文 参考訳(メタデータ) (2021-05-28T17:09:45Z) - OpinionRank: Extracting Ground Truth Labels from Unreliable Expert
Opinions with Graph-Based Spectral Ranking [2.1930130356902207]
クラウドソーシングは、分散ラベルコレクションを実行するための、ポピュラーで安価で効率的なデータマイニングソリューションとして登場した。
我々は、クラウドソースアノテーションを信頼できるラベルに統合するための、モデルフリーで解釈可能なグラフベースのスペクトルアルゴリズムであるOpinionRankを提案する。
実験の結果,より高パラメータ化アルゴリズムと比較した場合,OpinionRankが好適に動作することがわかった。
論文 参考訳(メタデータ) (2021-02-11T08:12:44Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z) - EvidentialMix: Learning with Combined Open-set and Closed-set Noisy
Labels [30.268962418683955]
開集合ラベルと閉集合ラベルを組み合わせた雑音ラベル問題の新しい変種について検討する。
その結果,従来の最先端手法よりも優れた分類結果と特徴表現が得られた。
論文 参考訳(メタデータ) (2020-11-11T11:15:32Z) - Improving Face Recognition by Clustering Unlabeled Faces in the Wild [77.48677160252198]
極値理論に基づく新しいアイデンティティ分離法を提案する。
重なり合うラベルノイズによる問題を大幅に低減する。
制御された設定と実際の設定の両方の実験は、我々のメソッドの一貫性のある改善を示している。
論文 参考訳(メタデータ) (2020-07-14T12:26:50Z) - Classify and Generate Reciprocally: Simultaneous Positive-Unlabelled
Learning and Conditional Generation with Extra Data [77.31213472792088]
クラスラベルデータの不足は、多くの機械学習問題において、ユビキタスなボトルネックとなっている。
本稿では, 正負ラベル付き(PU)分類と, 余分なラベル付きデータによる条件生成を活用することで, この問題に対処する。
本稿では,PU分類と条件生成を併用した新たなトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-14T08:27:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。