論文の概要: Uncertainty-aware Self-training for Text Classification with Few Labels
- arxiv url: http://arxiv.org/abs/2006.15315v1
- Date: Sat, 27 Jun 2020 08:13:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 07:23:45.782175
- Title: Uncertainty-aware Self-training for Text Classification with Few Labels
- Title(参考訳): ラベルの少ないテキスト分類のための不確実性を考慮した自己学習
- Authors: Subhabrata Mukherjee, Ahmed Hassan Awadallah
- Abstract要約: 本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
- 参考スコア(独自算出の注目度): 54.13279574908808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent success of large-scale pre-trained language models crucially hinge on
fine-tuning them on large amounts of labeled data for the downstream task, that
are typically expensive to acquire. In this work, we study self-training as one
of the earliest semi-supervised learning approaches to reduce the annotation
bottleneck by making use of large-scale unlabeled data for the target task.
Standard self-training mechanism randomly samples instances from the unlabeled
pool to pseudo-label and augment labeled data. In this work, we propose an
approach to improve self-training by incorporating uncertainty estimates of the
underlying neural network leveraging recent advances in Bayesian deep learning.
Specifically, we propose (i) acquisition functions to select instances from the
unlabeled pool leveraging Monte Carlo (MC) Dropout, and (ii) learning mechanism
leveraging model confidence for self-training. As an application, we focus on
text classification on five benchmark datasets. We show our methods leveraging
only 20-30 labeled samples per class for each task for training and for
validation can perform within 3% of fully supervised pre-trained language
models fine-tuned on thousands of labeled instances with an aggregate accuracy
of 91% and improving by upto 12% over baselines.
- Abstract(参考訳): 大規模な事前学習された言語モデルの成功は、下流タスクのために大量のラベル付きデータを微調整することに大きく依存しています。
本研究では,初期半教師付き学習手法の1つとして自己学習について検討し,対象タスクに対する大規模未ラベルデータの利用によりアノテーションボトルネックを低減する。
標準的な自己学習メカニズムは、未ラベルのプールから疑似ラベルと拡張ラベルのデータにランダムにインスタンスをサンプリングする。
本研究では,ベイズ深層学習の最近の進歩を活かし,基盤となるニューラルネットワークの不確実性推定を取り入れ,自己学習を改善する手法を提案する。
具体的には
i)モンテカルロ(MC)ドロップアウトを利用したラベルなしプールからインスタンスを選択するための取得機能、及び
二 自己学習のためのモデル信頼を活用した学習機構
アプリケーションとして,5つのベンチマークデータセットのテキスト分類に注目する。
本手法では,各タスク毎に20~30個のラベル付きサンプルのみを活用し,全教師付き事前学習済み言語モデルの3%以内を精度91%で微調整し,ベースラインを最大12%改善できることを示す。
関連論文リスト
- Boosting Semi-Supervised Learning by bridging high and low-confidence
predictions [4.18804572788063]
Pseudo-labelingは半教師あり学習(SSL)において重要な技術である
ReFixMatchと呼ばれる新しい手法を提案し、これはトレーニング中にラベルなしのデータをすべて活用することを目的としている。
論文 参考訳(メタデータ) (2023-08-15T00:27:18Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Active Self-Training for Weakly Supervised 3D Scene Semantic
Segmentation [17.27850877649498]
本稿では,自己学習と能動的学習を組み合わせた3次元シーンの弱教師付きセグメンテーション手法を提案する。
提案手法は,従来の作業やベースラインよりもシーンセグメンテーションを改善する効果的な手法であることを示す。
論文 参考訳(メタデータ) (2022-09-15T06:00:25Z) - Language Models in the Loop: Incorporating Prompting into Weak
Supervision [11.10422546502386]
本稿では,ラベル付きトレーニングデータに制限がある場合に,大規模事前学習言語モデルを新しいタスクに適用するための新しい戦略を提案する。
典型的にゼロショットや少数ショットの方法でモデルを適用する代わりに、弱い監督フレームワークにおける関数のラベル付けの基盤としてモデルを扱います。
論文 参考訳(メタデータ) (2022-05-04T20:42:40Z) - Active Self-Semi-Supervised Learning for Few Labeled Samples Fast
Training [3.4806267677524896]
半教師付き学習は、ほとんどアノテーションなしでのトレーニングで大きな成功を収めた。
ランダムサンプリングによって生成された低品質なラベル付きサンプルは、アノテーションの数を減らし続けるのが困難である。
擬似ラベルが優れた半教師付きモデルをブートストラップする,アクティブな自己半教師付きトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-09T07:45:05Z) - Self-Training: A Survey [6.116681488656473]
半教師付きアルゴリズムは、ラベル付き観測の小さなセットとラベルなし観測の大きなセットから予測関数を学習することを目的としている。
近年,自己学習手法が注目されていることは確かである。
本稿では,バイナリクラスとマルチクラス分類のための自己学習手法と,その変種と関連する2つのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-24T11:40:44Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Pseudo-Labeled Auto-Curriculum Learning for Semi-Supervised Keypoint
Localization [88.74813798138466]
オブジェクトのキーポイントのローカライズは、基本的な視覚的問題である。
キーポイントローカライゼーションネットワークの教師付き学習は、しばしば大量のデータを必要とする。
本稿では,一連の動的しきい値を持つ信頼度の高い擬似ラベルサンプルを自動的に選択する。
論文 参考訳(メタデータ) (2022-01-21T09:51:58Z) - Self-training Improves Pre-training for Natural Language Understanding [63.78927366363178]
我々は、半教師付き学習を通じてラベルのないデータを活用する別の方法として、自己学習について研究する。
本稿では,ラベル付きデータからタスク固有のクエリの埋め込みを計算するデータ拡張手法であるSentAugmentを紹介する。
我々のアプローチは、標準的なテキスト分類ベンチマークで最大2.6%の改善を達成し、スケーラブルで効果的な自己学習に繋がる。
論文 参考訳(メタデータ) (2020-10-05T17:52:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。