論文の概要: Representation Learning from Limited Educational Data with Crowdsourced
Labels
- arxiv url: http://arxiv.org/abs/2009.11222v1
- Date: Wed, 23 Sep 2020 15:34:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 15:07:54.766222
- Title: Representation Learning from Limited Educational Data with Crowdsourced
Labels
- Title(参考訳): クラウドソースラベルを用いた限定教育データからの表現学習
- Authors: Wentao Wang, Guowei Xu, Wenbiao Ding, Gale Yan Huang, Guoliang Li,
Jiliang Tang and Zitao Liu
- Abstract要約: 本稿では,クラウドソースラベルを用いた限られたデータから効率的な表現を学習することを目的とした,新しいフレームワークを提案する。
具体的には、グループ化に基づくディープニューラルネットワークを設計し、限られた数のトレーニングサンプルから埋め込みを学習する。
本研究では,モデルが誤分類したトレーニング例を適応的に選択するハードサンプル選択手法を開発した。
- 参考スコア(独自算出の注目度): 45.44620098891902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Representation learning has been proven to play an important role in the
unprecedented success of machine learning models in numerous tasks, such as
machine translation, face recognition and recommendation. The majority of
existing representation learning approaches often require a large number of
consistent and noise-free labels. However, due to various reasons such as
budget constraints and privacy concerns, labels are very limited in many
real-world scenarios. Directly applying standard representation learning
approaches on small labeled data sets will easily run into over-fitting
problems and lead to sub-optimal solutions. Even worse, in some domains such as
education, the limited labels are usually annotated by multiple workers with
diverse expertise, which yields noises and inconsistency in such crowdsourcing
settings. In this paper, we propose a novel framework which aims to learn
effective representations from limited data with crowdsourced labels.
Specifically, we design a grouping based deep neural network to learn
embeddings from a limited number of training samples and present a Bayesian
confidence estimator to capture the inconsistency among crowdsourced labels.
Furthermore, to expedite the training process, we develop a hard example
selection procedure to adaptively pick up training examples that are
misclassified by the model. Extensive experiments conducted on three real-world
data sets demonstrate the superiority of our framework on learning
representations from limited data with crowdsourced labels, comparing with
various state-of-the-art baselines. In addition, we provide a comprehensive
analysis on each of the main components of our proposed framework and also
introduce the promising results it achieved in our real production to fully
understand the proposed framework.
- Abstract(参考訳): 表現学習は、機械翻訳、顔認識、レコメンデーションなど、多くのタスクにおける機械学習モデルの前例のない成功において重要な役割を果たすことが証明されている。
既存の表現学習アプローチの大半は、多くの一貫性とノイズフリーなラベルを必要とする。
しかし、予算の制約やプライバシーの懸念など様々な理由から、ラベルは多くの現実世界のシナリオで非常に制限されている。
小さなラベル付きデータセットに標準表現学習アプローチを直接適用すれば、過度に適合する問題に陥り、準最適解につながる。
さらに悪いことに、教育などのいくつかの領域では、制限付きラベルは通常、多様な専門知識を持つ複数の労働者によって注釈付けされ、このようなクラウドソーシングの設定においてノイズと矛盾をもたらす。
本稿では,クラウドソースラベルを用いた限られたデータから効果的な表現を学ぶことを目的とした新しいフレームワークを提案する。
具体的には,少数のトレーニングサンプルから埋め込みを学習するためのグループベースディープニューラルネットワークを設計し,クラウドソースラベル間の矛盾を捉えるベイズ信頼度推定器を提案する。
さらに,学習過程の迅速化を目的として,モデルが誤分類した学習例を適応的に選択するハードサンプル選択手法を開発した。
3つの実世界のデータセットで実施された大規模な実験は、クラウドソースラベルによる限られたデータからの表現の学習におけるフレームワークの優位性を示し、様々な最先端のベースラインと比較した。
さらに,提案フレームワークの各主要コンポーネントについて包括的な分析を行い,提案フレームワークを十分に理解するために実運用で達成した有望な結果についても紹介する。
関連論文リスト
- Exploiting Minority Pseudo-Labels for Semi-Supervised Semantic Segmentation in Autonomous Driving [2.638145329894673]
マイノリティ・クラス・ラーニングを強化するためのプロフェッショナル・トレーニング・モジュールと、より包括的なセマンティック情報を学ぶための一般的なトレーニング・モジュールを提案する。
実験では,ベンチマークデータセットの最先端手法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-19T11:47:25Z) - LC-Protonets: Multi-label Few-shot learning for world music audio tagging [65.72891334156706]
ラベル結合型プロトタイプネットワーク(LC-Protonets)を導入し,複数ラベルの複数ショット分類の問題に対処する。
LC-Protonetsは、限られたトレーニング項目に存在するラベルのパワーセットから、ラベルの組み合わせごとに1つのプロトタイプを生成する。
本手法は,様々な文化をカバーし,現代音楽と伝統音楽の両方を含む,多様な音楽データセットにまたがる自動音声タグ付けに適用する。
論文 参考訳(メタデータ) (2024-09-17T15:13:07Z) - Text-Guided Mixup Towards Long-Tailed Image Categorization [7.207351201912651]
多くの実世界のアプリケーションにおいて、トレーニングデータのためのクラスラベルの周波数分布は、長い尾の分布を示すことができる。
本稿では,事前学習したテキストエンコーダによって認識されるクラス間の意味的関係を利用した,テキスト誘導型ミックスアップ手法を提案する。
論文 参考訳(メタデータ) (2024-09-05T14:37:43Z) - Fair Few-shot Learning with Auxiliary Sets [53.30014767684218]
多くの機械学習(ML)タスクでは、ラベル付きデータサンプルしか収集できないため、フェアネスのパフォーマンスが低下する可能性がある。
本稿では,限定的なトレーニングサンプルを用いたフェアネス認識学習課題をemphfair few-shot Learning問題として定義する。
そこで我々は,学習した知識をメタテストタスクに一般化し,様々なメタトレーニングタスクに公平な知識を蓄積する新しいフレームワークを考案した。
論文 参考訳(メタデータ) (2023-08-28T06:31:37Z) - A Multi-label Continual Learning Framework to Scale Deep Learning
Approaches for Packaging Equipment Monitoring [57.5099555438223]
連続シナリオにおけるマルチラベル分類を初めて研究した。
タスク数に関して対数的複雑性を持つ効率的なアプローチを提案する。
我々は,包装業界における実世界のマルチラベル予測問題に対するアプローチを検証した。
論文 参考訳(メタデータ) (2022-08-08T15:58:39Z) - Self-training with Few-shot Rationalization: Teacher Explanations Aid
Student in Few-shot NLU [88.8401599172922]
タスク固有のラベルと合理的性に制限された自己学習言語モデルに基づくフレームワークを開発する。
ニューラルネットワークの性能は,その合理的な予測を意識することで,大幅に向上できることを示す。
論文 参考訳(メタデータ) (2021-09-17T00:36:46Z) - Sense and Learn: Self-Supervision for Omnipresent Sensors [9.442811508809994]
我々は、生の知覚データから表現や特徴学習のためのSense and Learnというフレームワークを提案する。
これは、面倒なラベル付けプロセスに人間が関与することなく、注釈のないデータから、高レベルで広範囲に有用な特徴を学習できる補助的なタスクで構成されている。
提案手法は、教師付きアプローチと競合する結果を達成し、ネットワークを微調整し、ほとんどの場合、下流タスクを学習することでギャップを埋める。
論文 参考訳(メタデータ) (2020-09-28T11:57:43Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z) - NeuCrowd: Neural Sampling Network for Representation Learning with
Crowdsourced Labels [19.345894148534335]
本稿では,クラウドソースラベルから教師付き表現学習(SRL)を実現する統一フレームワークであるemphNeuCrowdを提案する。
提案手法は1つの実世界のデータセットと3つの実世界のデータセットで評価される。
論文 参考訳(メタデータ) (2020-03-21T13:38:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。