論文の概要: ATM: An Uncertainty-aware Active Self-training Framework for
Label-efficient Text Classification
- arxiv url: http://arxiv.org/abs/2112.08787v1
- Date: Thu, 16 Dec 2021 11:09:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 23:02:39.617773
- Title: ATM: An Uncertainty-aware Active Self-training Framework for
Label-efficient Text Classification
- Title(参考訳): ATM:ラベル効率の良いテキスト分類のための不確かさを意識したアクティブセルフトレーニングフレームワーク
- Authors: Yue Yu, Lingkai Kong, Jieyu Zhang, Rongzhi Zhang, Chao Zhang
- Abstract要約: ATMは、ラベルのないデータを活用するために自己学習を利用する新しいフレームワークであり、特定のALアルゴリズムに依存しない。
我々はATMが最強のアクティブラーニングと自己学習ベースラインを上回り、ラベル効率を平均51.9%向上させることを実証した。
- 参考スコア(独自算出の注目度): 13.881283744970979
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the great success of pre-trained language models (LMs) in many
natural language processing (NLP) tasks, they require excessive labeled data
for fine-tuning to achieve satisfactory performance. To enhance the label
efficiency, researchers have resorted to active learning (AL), while the
potential of unlabeled data is ignored by most of prior work. To unleash the
power of unlabeled data for better label efficiency and model performance, we
develop ATM, a new framework that leverage self-training to exploit unlabeled
data and is agnostic to the specific AL algorithm, serving as a plug-in module
to improve existing AL methods. Specifically, the unlabeled data with high
uncertainty is exposed to oracle for annotations while those with low
uncertainty are leveraged for self-training. To alleviate the label noise
propagation issue in self-training, we design a simple and effective
momentum-based memory bank to dynamically aggregate the model predictions from
all rounds. By extensive experiments, we demonstrate that ATM outperforms the
strongest active learning and self-training baselines and improve the label
efficiency by 51.9% on average.
- Abstract(参考訳): 多くの自然言語処理(NLP)タスクにおいて、事前訓練された言語モデル(LM)が大きな成功を収めたにもかかわらず、良好な性能を得るためには、微調整のために過剰なラベル付きデータが必要である。
ラベルの効率を高めるために、研究者はアクティブラーニング(AL)に頼ってきたが、ラベルなしデータのポテンシャルは以前の研究の大半で無視されている。
ラベルのないデータのパワーを解放し、ラベルの効率とモデルの性能を向上させるために、ATMを開発した。これは、ラベルのないデータを活用するための自己学習を利用する新しいフレームワークであり、既存のALメソッドを改善するプラグインモジュールとして機能する特定のALアルゴリズムに非依存である。
具体的には、不確実性の高いラベル付きデータはアノテーションのオラクルに露出し、不確実性の高いデータは自己学習に活用する。
自己学習におけるラベル雑音伝搬問題を軽減するため,全ラウンドからモデル予測を動的に集約する運動量ベースメモリバンクを設計した。
広範な実験により、ATMは最強のアクティブラーニングと自己学習ベースラインを上回り、ラベル効率を平均51.9%向上させることを示した。
関連論文リスト
- Incremental Self-training for Semi-supervised Learning [56.57057576885672]
ISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。
提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-04-14T05:02:00Z) - MyriadAL: Active Few Shot Learning for Histopathology [10.652626309100889]
我々は、Myriad Active Learning (MAL)という、アクティブな数個のショットラーニングフレームワークを導入する。
MALには、コントラスト学習エンコーダ、擬似ラベル生成、ループ内の新しいクエリサンプル選択が含まれている。
2つの公的な病理組織学データセットの実験により、MALは以前の研究に比べてテスト精度、マクロF1スコア、ラベル効率が優れていることが示された。
論文 参考訳(メタデータ) (2023-10-24T20:08:15Z) - XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - Uncertainty-aware Self-training for Low-resource Neural Sequence
Labeling [29.744621356187764]
本稿では,ニューラルシークエンスラベリング(NSL)のための新しい未知の自己学習フレームワークSeqUSTを提案する。
ベイジアンニューラルネットワーク(BNN)にモンテカルロ(MC)ドロップアウトを組み込んでトークンレベルで不確実性評価を行い、ラベルのないデータから信頼性の高い言語トークンを選択する。
ノイズロスのあるマスク付きシークエンスラベリングタスクは、ノイズのある擬似ラベルの問題を抑えることを目的とした堅牢なトレーニングを支援する。
論文 参考訳(メタデータ) (2023-02-17T02:40:04Z) - Towards Harnessing Feature Embedding for Robust Learning with Noisy
Labels [44.133307197696446]
ディープニューラルネットワーク(DNN)の記憶効果は,近年のラベルノイズ学習法において重要な役割を担っている。
ラベルノイズを用いたディープラーニングのための新しい特徴埋め込み方式, LabEl Noise Dilution (LEND) を提案する。
論文 参考訳(メタデータ) (2022-06-27T02:45:09Z) - Self-Tuning for Data-Efficient Deep Learning [75.34320911480008]
セルフチューニングは、データ効率のよいディープラーニングを可能にする新しいアプローチである。
ラベル付きおよびラベルなしデータの探索と事前訓練されたモデルの転送を統一する。
SSLとTLの5つのタスクをシャープなマージンで上回ります。
論文 参考訳(メタデータ) (2021-02-25T14:56:19Z) - In Defense of Pseudo-Labeling: An Uncertainty-Aware Pseudo-label
Selection Framework for Semi-Supervised Learning [53.1047775185362]
Pseudo-labeling (PL) は一般的な SSL アプローチで、この制約はありませんが、当初の処方では比較的不十分です。
PLは不整合モデルからの誤った高い信頼度予測により性能が低下していると論じる。
そこで本研究では,疑似ラベリング精度を向上させるための不確実性認識型擬似ラベル選択(ups)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-15T23:29:57Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。