論文の概要: Revisiting Self-Training for Few-Shot Learning of Language Model
- arxiv url: http://arxiv.org/abs/2110.01256v1
- Date: Mon, 4 Oct 2021 08:51:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-05 15:37:41.853150
- Title: Revisiting Self-Training for Few-Shot Learning of Language Model
- Title(参考訳): 言語モデルのFew-Shot学習のための自己学習の再検討
- Authors: Yiming Chen, Yan Zhang, Chen Zhang, Grandee Lee, Ran Cheng, and
Haizhou Li
- Abstract要約: ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
- 参考スコア(独自算出の注目度): 61.173976954360334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As unlabeled data carry rich task-relevant information, they are proven
useful for few-shot learning of language model. The question is how to
effectively make use of such data. In this work, we revisit the self-training
technique for language model fine-tuning and present a state-of-the-art
prompt-based few-shot learner, SFLM. Given two views of a text sample via weak
and strong augmentation techniques, SFLM generates a pseudo label on the weakly
augmented version. Then, the model predicts the same pseudo label when
fine-tuned with the strongly augmented version. This simple approach is shown
to outperform other state-of-the-art supervised and semi-supervised
counterparts on six sentence classification and six sentence-pair
classification benchmarking tasks. In addition, SFLM only relies on a few
in-domain unlabeled data. We conduct a comprehensive analysis to demonstrate
the robustness of our proposed approach under various settings, including
augmentation techniques, model scale, and few-shot knowledge transfer across
tasks.
- Abstract(参考訳): ラベルなしデータにはタスク関連情報が豊富にあるため、言語モデルの素早い学習に有用であることが証明されている。
問題は、このようなデータを効果的に利用する方法だ。
本稿では,言語モデルの微調整のための自己学習手法を再検討し,最先端のプロンプトベースの少数ショット学習者sflmを提案する。
弱化と強化によるテキストサンプルの2つのビューが与えられた場合、SFLMは弱化バージョンに擬似ラベルを生成する。
そして、強強化バージョンで微調整された場合、モデルは同じ擬似ラベルを予測する。
この単純なアプローチは、6つの文分類と6つの文ペア分類ベンチマークタスクにおいて、他の最先端の教師付きおよび半教師付きの手法よりも優れている。
加えて、SFLMはいくつかのドメイン内のラベルなしデータのみに依存している。
我々は,拡張手法,モデルスケール,タスク間での知識伝達など,様々な条件下で提案手法の堅牢性を示すため,包括的な分析を行う。
関連論文リスト
- Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - Self-Evolution Learning for Mixup: Enhance Data Augmentation on Few-Shot
Text Classification Tasks [75.42002070547267]
テキスト分類におけるデータ拡張のための自己進化学習(SE)に基づくミックスアップ手法を提案する。
モデル出力と原サンプルの1つのホットラベルを線形に補間して,新しい軟質なラベル混在を生成する,新しいインスタンス固有ラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T23:43:23Z) - CSSL-MHTR: Continual Self-Supervised Learning for Scalable Multi-script
Handwritten Text Recognition [7.39273105421963]
我々は,手書き文字認識における破滅的な忘れの問題を軽減するために,連続的な自己指導型学習の可能性を探究する。
提案手法は,各タスクにアダプタと呼ばれる中間層を追加し,現在のタスクを学習しながら,前モデルからの知識を効率的に抽出する。
私たちは英語、イタリア語、ロシア語のスクリプトで最先端のパフォーマンスを達成しましたが、タスクごとにいくつかのパラメータしか追加していません。
論文 参考訳(メタデータ) (2023-03-16T14:27:45Z) - Mask-guided BERT for Few Shot Text Classification [12.361032727044547]
Mask-BERTは、BERTベースのアーキテクチャが数発の学習に対処するための、シンプルでモジュール化されたフレームワークである。
中心となる考え方は、テキスト入力にマスクを選択的に適用し、無関係な情報をフィルタリングすることであり、それはモデルを差別的トークンにフォーカスするよう誘導する。
パブリックドメインベンチマークデータセットの実験結果は、Mask-BERTの有効性を示す。
論文 参考訳(メタデータ) (2023-02-21T05:24:00Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Few-shot Text Classification with Dual Contrastive Consistency [31.141350717029358]
本稿では,事前学習した言語モデルを用いて,数ショットのテキスト分類を行う方法について検討する。
ラベル付きデータが少ない場合の教師付きコントラスト学習と、ラベルなしデータの一貫性と規則化を採用する。
論文 参考訳(メタデータ) (2022-09-29T19:26:23Z) - Self-training Improves Pre-training for Few-shot Learning in
Task-oriented Dialog Systems [47.937191088981436]
大規模事前訓練型言語モデルでは、ToDで数発の学習を行う上で有望な結果が示されている。
本稿では,より強力な学生モデルを訓練するために,最も自信のないラベル付きデータを反復的にラベル付けする自己学習手法を提案する。
目的分類,ダイアログ状態追跡,ダイアログアクト予測,応答選択など,ToDの4つの下流タスクに関する実験と分析を行った。
論文 参考訳(メタデータ) (2021-08-28T07:22:06Z) - Self-Training Pre-Trained Language Models for Zero- and Few-Shot
Multi-Dialectal Arabic Sequence Labeling [7.310390479801139]
データスカース変種の性能を改善するため、ゼロおよび少数ショットシナリオで事前訓練された言語モデル。
我々の研究は、MSAリソースのみを活用するDAモデルを開発する機会を開く。
論文 参考訳(メタデータ) (2021-01-12T21:29:30Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。