論文の概要: Self-training Improves Pre-training for Natural Language Understanding
- arxiv url: http://arxiv.org/abs/2010.02194v1
- Date: Mon, 5 Oct 2020 17:52:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 21:41:54.899650
- Title: Self-training Improves Pre-training for Natural Language Understanding
- Title(参考訳): 自然言語理解のための事前学習を改善する自己学習
- Authors: Jingfei Du, Edouard Grave, Beliz Gunel, Vishrav Chaudhary, Onur
Celebi, Michael Auli, Ves Stoyanov, Alexis Conneau
- Abstract要約: 我々は、半教師付き学習を通じてラベルのないデータを活用する別の方法として、自己学習について研究する。
本稿では,ラベル付きデータからタスク固有のクエリの埋め込みを計算するデータ拡張手法であるSentAugmentを紹介する。
我々のアプローチは、標準的なテキスト分類ベンチマークで最大2.6%の改善を達成し、スケーラブルで効果的な自己学習に繋がる。
- 参考スコア(独自算出の注目度): 63.78927366363178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised pre-training has led to much recent progress in natural language
understanding. In this paper, we study self-training as another way to leverage
unlabeled data through semi-supervised learning. To obtain additional data for
a specific task, we introduce SentAugment, a data augmentation method which
computes task-specific query embeddings from labeled data to retrieve sentences
from a bank of billions of unlabeled sentences crawled from the web. Unlike
previous semi-supervised methods, our approach does not require in-domain
unlabeled data and is therefore more generally applicable. Experiments show
that self-training is complementary to strong RoBERTa baselines on a variety of
tasks. Our augmentation approach leads to scalable and effective self-training
with improvements of up to 2.6% on standard text classification benchmarks.
Finally, we also show strong gains on knowledge-distillation and few-shot
learning.
- Abstract(参考訳): 教師なし事前学習は、自然言語理解の進歩に繋がった。
本稿では,半教師付き学習を通じてラベルのないデータを活用する方法として,自己学習について検討する。
特定のタスクのための追加データを得るために、ラベル付きデータからタスク固有のクエリ埋め込みを計算し、webからクロールされた数十億のラベルなし文から文を取得するデータ拡張法であるsendaugmentを紹介する。
従来の半教師付き手法とは異なり、このアプローチではラベルなしのデータは必要とせず、より一般的に適用できる。
実験により、自己学習は様々なタスクにおいて強力なRoBERTaベースラインと相補的であることが示された。
拡張アプローチはスケーラブルで効果的な自己学習につながり、標準テキスト分類ベンチマークで最大2.6%改善しました。
最後に、知識の蒸留と数発の学習に強い効果を示す。
関連論文リスト
- Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Incremental Self-training for Semi-supervised Learning [56.57057576885672]
ISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。
提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-04-14T05:02:00Z) - Revisit Few-shot Intent Classification with PLMs: Direct Fine-tuning vs. Continual Pre-training [20.98770732015944]
少量のラベル付きデータのみを使用して、基礎となる意図に基づいて発話を分類するために、深層学習モデルを訓練する。
この課題に対するPLMの過度な適合問題は、予想されるほど深刻ではないため、継続事前学習は必須ではない可能性がある。
限られた利用可能なデータの利用を最大化するために,コンテキスト拡張法を提案し,逐次自己蒸留を利用して性能を向上させる。
論文 参考訳(メタデータ) (2023-06-08T15:26:52Z) - Curriculum-Based Self-Training Makes Better Few-Shot Learners for
Data-to-Text Generation [56.98033565736974]
テキスト生成の困難さによって決定される並べ替え順序でラベルのないデータを活用するために,カリキュラムベースの自己学習(CBST)を提案する。
提案手法は、微調整およびタスク適応型事前学習法より優れており、データ・テキスト・ジェネレーションのわずかな設定で最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2022-06-06T16:11:58Z) - Investigating a Baseline Of Self Supervised Learning Towards Reducing
Labeling Costs For Image Classification [0.0]
この研究は、Kaggle.comの cat-vs-dogs データセット Mnist と Fashion-Mnist を実装し、自己教師型学習タスクを調査している。
その結果、自己教師型学習におけるプレテキスト処理は、下流分類タスクの約15%の精度を向上させることがわかった。
論文 参考訳(メタデータ) (2021-08-17T06:43:05Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - Data-Efficient Pretraining via Contrastive Self-Supervision [48.255310614527694]
本研究では,資源効率向上のための3つの課題に対して評価を行う。
タスク内部の60MBのテキストデータに事前トレーニングされたデータと効率的な自己教師付きコントラストテキストエンコーダを提案する。
提案手法は,RoBERTaの微調整時間の1/5で事前学習と微調整を行いながら,RoBERTaよりも優れていた。
論文 参考訳(メタデータ) (2020-10-02T15:41:57Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。