論文の概要: Self-training For Pre-training Language Models
- arxiv url: http://arxiv.org/abs/2011.09031v3
- Date: Wed, 19 May 2021 00:44:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 03:53:59.045470
- Title: Self-training For Pre-training Language Models
- Title(参考訳): 事前学習言語モデルのための自己学習
- Authors: Tong Guo
- Abstract要約: 業界におけるNLPアプリケーションでは、ユーザや顧客が生成する大量のデータがあります。
私たちの学習フレームワークは、この膨大な未ラベルデータに基づいています。
- 参考スコア(独自算出の注目度): 0.5139874302398955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language model pre-training has proven to be useful in many language
understanding tasks. In this paper, we investigate whether it is still helpful
to add the self-training method in the pre-training step and the fine-tuning
step. Towards this goal, we propose a learning framework that making best use
of the unlabel data on the low-resource and high-resource labeled dataset. In
industry NLP applications, we have large amounts of data produced by users or
customers. Our learning framework is based on this large amounts of unlabel
data. First, We use the model fine-tuned on manually labeled dataset to predict
pseudo labels for the user-generated unlabeled data. Then we use the pseudo
labels to supervise the task-specific training on the large amounts of
user-generated data. We consider this task-specific training step on pseudo
labels as a pre-training step for the next fine-tuning step. At last, we
fine-tune on the manually labeled dataset upon the pre-trained model. In this
work, we first empirically show that our method is able to solidly improve the
performance by 3.6%, when the manually labeled fine-tuning dataset is
relatively small. Then we also show that our method still is able to improve
the performance further by 0.2%, when the manually labeled fine-tuning dataset
is relatively large enough. We argue that our method make the best use of the
unlabel data, which is superior to either pre-training or self-training alone.
- Abstract(参考訳): 言語モデルの事前学習は多くの言語理解タスクで有用であることが証明されている。
本稿では,事前学習段階と微調整段階に自己学習法を加えることがまだ有用かどうかを検討する。
この目的に向けて,低リソースかつ高リソースのラベル付きデータセット上で,ラベルなしデータを最大限に活用する学習フレームワークを提案する。
業界におけるNLPアプリケーションでは、ユーザや顧客が生成する大量のデータがあります。
私たちの学習フレームワークは、この膨大な未ラベルデータに基づいています。
まず、手動ラベル付きデータセットに微調整されたモデルを用いて、ユーザ生成した未ラベルデータの擬似ラベルを予測する。
次に、擬似ラベルを用いて、大量のユーザ生成データに基づいてタスク固有のトレーニングを監督する。
擬似ラベルを用いたタスク固有のトレーニングステップを,次の微調整ステップの事前学習ステップとみなす。
最後に、事前学習したモデル上に手動ラベル付きデータセットを微調整します。
本研究では,手動でラベル付けした微調整データセットが比較的小さい場合に,本手法が性能を3.6%向上できることを示す。
また,手動でラベル付けした微調整データセットが比較的大きい場合に,その性能を0.2%向上させることができることを示す。
本手法は,事前学習と自己学習のどちらよりも優れている非ラベルデータを最大限に活用すると主張している。
関連論文リスト
- FlatMatch: Bridging Labeled Data and Unlabeled Data with Cross-Sharpness
for Semi-Supervised Learning [73.13448439554497]
Semi-Supervised Learning (SSL) は、ラベル付きデータが極めて少ない豊富なラベル付きデータを活用する効果的な方法である。
ほとんどのSSLメソッドは、通常、異なるデータ変換間のインスタンス単位の一貫性に基づいている。
本研究では,2つのデータセット間の一貫した学習性能を確保するために,クロスシャープネス尺度を最小化するFlatMatchを提案する。
論文 参考訳(メタデータ) (2023-10-25T06:57:59Z) - Doubly Robust Self-Training [46.168395767948965]
本稿では,新しい半教師付きアルゴリズムである二重頑健な自己学習を導入する。
通常の自己学習ベースラインよりも2倍頑健な損失の優位性を実証する。
論文 参考訳(メタデータ) (2023-06-01T00:57:16Z) - Online pseudo labeling for polyp segmentation with momentum networks [5.920947681019466]
半教師付き学習では、ラベルの品質がモデルパフォーマンスにおいて重要な役割を果たす。
本稿では,学生ネットワークのトレーニングに使用される擬似ラベルの品質を高めるための,新しい擬似ラベル方式を提案する。
実験結果は, 通常の手法を3%超え, ある程度のデータセットで完全に監督された結果に近づいた。
論文 参考訳(メタデータ) (2022-09-29T07:33:54Z) - SLADE: A Self-Training Framework For Distance Metric Learning [75.54078592084217]
我々は、追加のラベルのないデータを活用することで、検索性能を向上させるための自己学習フレームワークSLADEを提案する。
まず、ラベル付きデータに基づいて教師モデルをトレーニングし、ラベルなしデータに対して擬似ラベルを生成する。
次に、最終機能埋め込みを生成するために、ラベルと擬似ラベルの両方で学生モデルをトレーニングします。
論文 参考訳(メタデータ) (2020-11-20T08:26:10Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z) - Self-training Improves Pre-training for Natural Language Understanding [63.78927366363178]
我々は、半教師付き学習を通じてラベルのないデータを活用する別の方法として、自己学習について研究する。
本稿では,ラベル付きデータからタスク固有のクエリの埋め込みを計算するデータ拡張手法であるSentAugmentを紹介する。
我々のアプローチは、標準的なテキスト分類ベンチマークで最大2.6%の改善を達成し、スケーラブルで効果的な自己学習に繋がる。
論文 参考訳(メタデータ) (2020-10-05T17:52:25Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z) - Improving Semantic Segmentation via Self-Training [75.07114899941095]
半教師付きアプローチ,特に自己学習パラダイムを用いて,最先端の成果を得ることができることを示す。
まず、ラベル付きデータに基づいて教師モデルを訓練し、次にラベルなしデータの大規模なセット上で擬似ラベルを生成する。
私たちの堅牢なトレーニングフレームワークは、人名と擬似ラベルを共同で消化し、Cityscapes、CamVid、KITTIデータセット上で最高のパフォーマンスを達成することができます。
論文 参考訳(メタデータ) (2020-04-30T17:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。