論文の概要: NeuCrowd: Neural Sampling Network for Representation Learning with
Crowdsourced Labels
- arxiv url: http://arxiv.org/abs/2003.09660v4
- Date: Thu, 16 Dec 2021 02:54:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 10:16:06.127014
- Title: NeuCrowd: Neural Sampling Network for Representation Learning with
Crowdsourced Labels
- Title(参考訳): NeuCrowd: クラウドソースラベルによる表現学習のためのニューラルネットワーク
- Authors: Yang Hao, Wenbiao Ding, Zitao Liu
- Abstract要約: 本稿では,クラウドソースラベルから教師付き表現学習(SRL)を実現する統一フレームワークであるemphNeuCrowdを提案する。
提案手法は1つの実世界のデータセットと3つの実世界のデータセットで評価される。
- 参考スコア(独自算出の注目度): 19.345894148534335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Representation learning approaches require a massive amount of discriminative
training data, which is unavailable in many scenarios, such as healthcare,
smart city, education, etc. In practice, people refer to crowdsourcing to get
annotated labels. However, due to issues like data privacy, budget limitation,
shortage of domain-specific annotators, the number of crowdsourced labels is
still very limited. Moreover, because of annotators' diverse expertise,
crowdsourced labels are often inconsistent. Thus, directly applying existing
supervised representation learning (SRL) algorithms may easily get the
overfitting problem and yield suboptimal solutions. In this paper, we propose
\emph{NeuCrowd}, a unified framework for SRL from crowdsourced labels. The
proposed framework (1) creates a sufficient number of high-quality
\emph{n}-tuplet training samples by utilizing safety-aware sampling and robust
anchor generation; and (2) automatically learns a neural sampling network that
adaptively learns to select effective samples for SRL networks. The proposed
framework is evaluated on both one synthetic and three real-world data sets.
The results show that our approach outperforms a wide range of state-of-the-art
baselines in terms of prediction accuracy and AUC. To encourage reproducible
results, we make our code publicly available at
\url{https://github.com/tal-ai/NeuCrowd_KAIS2021}.
- Abstract(参考訳): 表現学習アプローチは、医療、スマートシティ、教育など、多くのシナリオで利用できない、大量の差別的なトレーニングデータを必要とする。
実際には、人々は注釈付きラベルを取得するためにクラウドソーシングを参照します。
しかし、データプライバシや予算制限、ドメイン固有のアノテーションの不足といった問題により、クラウドソースラベルの数は依然として非常に限られている。
さらに、アノテータの多様な専門知識のため、クラウドソースラベルはしばしば矛盾する。
したがって、既存の教師付き表現学習(SRL)アルゴリズムを直接適用すれば、オーバーフィッティングの問題が容易に解決され、準最適解が得られる。
本稿では,クラウドソースラベルからSRLを統一したフレームワークである \emph{NeuCrowd} を提案する。
提案フレームワークは,安全性に配慮したサンプリングとロバストなアンカー生成を利用して,十分な数の高品質なtupletトレーニングサンプルを作成し,(2)SRLネットワークの有効なサンプルを選択するために適応的に学習するニューラルネットワークを自動学習する。
提案フレームワークは1つの合成データセットと3つの実世界のデータセットで評価される。
その結果,本手法は予測精度とAUCにおいて,幅広い最先端のベースラインよりも優れていた。
再現可能な結果を促進するため、コード公開は \url{https://github.com/tal-ai/NeuCrowd_KAIS2021} で行います。
関連論文リスト
- Text-Guided Mixup Towards Long-Tailed Image Categorization [7.207351201912651]
多くの実世界のアプリケーションにおいて、トレーニングデータのためのクラスラベルの周波数分布は、長い尾の分布を示すことができる。
本稿では,事前学習したテキストエンコーダによって認識されるクラス間の意味的関係を利用した,テキスト誘導型ミックスアップ手法を提案する。
論文 参考訳(メタデータ) (2024-09-05T14:37:43Z) - Towards Realistic Long-tailed Semi-supervised Learning in an Open World [0.0]
我々は、既知のカテゴリと新規カテゴリの分布関係を前提としない、よりエフェリアティックなオープンワールドLong-tailed Semi-supervised Learning(textbfROLSSL)を構築する。
提案したROOSSL設定では、二重ステージロジット調整と呼ばれる、シンプルで効果的な解を提案する。
CIFAR100やImageNet100のようなデータセットの実験では、最大50.1%のパフォーマンス改善が示されている。
論文 参考訳(メタデータ) (2024-05-23T12:53:50Z) - SemiReward: A General Reward Model for Semi-supervised Learning [58.47299780978101]
半教師付き学習(SSL)は、擬似ラベリングによる自己学習フレームワークの様々な改善により、大きな進歩をみせた。
主な課題は、高品質な擬似ラベルを確認バイアスと区別する方法である。
本稿では、報酬スコアを予測して高品質な擬似ラベルを評価・フィルタリングするセミ教師付きリワードフレームワーク(SemiReward)を提案する。
論文 参考訳(メタデータ) (2023-10-04T17:56:41Z) - Robust Assignment of Labels for Active Learning with Sparse and Noisy
Annotations [0.17188280334580192]
監視された分類アルゴリズムは、世界中の多くの現実の問題を解決するために使用される。
残念なことに、多くのタスクに対して良質なアノテーションを取得することは、実際に行うには不可能か、あるいはコストがかかりすぎます。
サンプル空間のラベルのない部分を利用する2つの新しいアノテーション統一アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-25T19:40:41Z) - On Non-Random Missing Labels in Semi-Supervised Learning [114.62655062520425]
Semi-Supervised Learning (SSL)は基本的にラベルの問題である。
SSL に "class" を明示的に組み込んでいます。
提案手法は,既存のベースラインを著しく上回るだけでなく,他のラベルバイアス除去SSL法を上回ります。
論文 参考訳(メタデータ) (2022-06-29T22:01:29Z) - Improving Contrastive Learning on Imbalanced Seed Data via Open-World
Sampling [96.8742582581744]
我々は、Model-Aware K-center (MAK)と呼ばれるオープンワールドなラベルなしデータサンプリングフレームワークを提案する。
MAKは、尾性、近接性、多様性の3つの単純な原則に従う。
我々はMAKが学習した機能の全体的な表現品質とクラスバランス性の両方を継続的に改善できることを実証した。
論文 参考訳(メタデータ) (2021-11-01T15:09:41Z) - Trash to Treasure: Harvesting OOD Data with Cross-Modal Matching for
Open-Set Semi-Supervised Learning [101.28281124670647]
オープンセット半教師付き学習(Open-set SSL)では、ラベルなしデータにOOD(Out-of-distribution)サンプルを含む、難しいが実用的なシナリオを調査する。
我々は、OODデータの存在を効果的に活用し、特徴学習を増強する新しいトレーニングメカニズムを提案する。
我々のアプローチは、オープンセットSSLのパフォーマンスを大幅に向上させ、最先端技術よりも大きなマージンで性能を向上します。
論文 参考訳(メタデータ) (2021-08-12T09:14:44Z) - Temporal-aware Language Representation Learning From Crowdsourced Labels [12.40460861125743]
アンダーラインアンノテータを用いたアンダーラインソースラベルのための言語表現学習アルゴリズムであるemphTACMAを提案する。
この提案は、およそ5行のコードで実装するのが非常に簡単である。
その結果,本手法は予測精度とAUCにおいて,幅広い最先端のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2021-07-15T05:25:56Z) - Semi-supervised deep learning based on label propagation in a 2D
embedded space [117.9296191012968]
提案されたソリューションは、少数の教師なしイメージから多数の教師なしイメージにラベルを伝達し、ディープニューラルネットワークモデルをトレーニングする。
本稿では、より正確なラベル付きサンプルを反復してセットから深層ニューラルネットワーク(VGG-16)をトレーニングするループを提案する。
ラベル付きセットがイテレーションに沿って改善されるにつれて、ニューラルネットワークの機能が改善される。
論文 参考訳(メタデータ) (2020-08-02T20:08:54Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。