論文の概要: Generating Training Data with Language Models: Towards Zero-Shot
Language Understanding
- arxiv url: http://arxiv.org/abs/2202.04538v1
- Date: Wed, 9 Feb 2022 16:02:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-10 14:20:52.445916
- Title: Generating Training Data with Language Models: Towards Zero-Shot
Language Understanding
- Title(参考訳): 言語モデルを用いた学習データ生成:ゼロショット言語理解に向けて
- Authors: Yu Meng, Jiaxin Huang, Yu Zhang, Jiawei Han
- Abstract要約: 事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
NLUタスクのゼロショット学習に両タイプのPLMを用いる簡単な手法を提案する。
提案手法は,GLUEベンチマークの7つの分類タスクに対して高い性能を示す。
- 参考スコア(独自算出の注目度): 35.92571138322246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained language models (PLMs) have demonstrated remarkable performance in
various natural language processing tasks: Unidirectional PLMs (e.g., GPT) are
well known for their superior text generation capabilities; bidirectional PLMs
(e.g., BERT) have been the prominent choice for natural language understanding
(NLU) tasks. While both types of models have achieved promising few-shot
learning performance, their potential for zero-shot learning has been
underexplored. In this paper, we present a simple approach that uses both types
of PLMs for fully zero-shot learning of NLU tasks without requiring any
task-specific data: A unidirectional PLM generates class-conditioned texts
guided by prompts, which are used as the training data for fine-tuning a
bidirectional PLM. With quality training data selected based on the generation
probability and regularization techniques (label smoothing and temporal
ensembling) applied to the fine-tuning stage for better generalization and
stability, our approach demonstrates strong performance across seven
classification tasks of the GLUE benchmark (e.g., 72.3/73.8 on MNLI-m/mm and
92.8 on SST-2), significantly outperforming zero-shot prompting methods and
achieving even comparable results to strong few-shot approaches using 32
training samples per class.
- Abstract(参考訳): 事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて顕著なパフォーマンスを示している:一方向のPLM(例えば、GPT)は、優れたテキスト生成能力でよく知られており、双方向のPLM(例えば、BERT)は、自然言語理解(NLU)タスクにおいて顕著な選択である。
どちらのモデルも望まれる数発の学習性能を達成したが、ゼロショット学習の可能性は過小評価されている。
本稿では,nluタスクの完全なゼロショット学習に,両タイプのplmを用いる簡単な手法を提案する。一方向plmは,双方向plmを微調整するためのトレーニングデータとして使用される,プロンプトによるクラス条件付きテキストを生成する。
With quality training data selected based on the generation probability and regularization techniques (label smoothing and temporal ensembling) applied to the fine-tuning stage for better generalization and stability, our approach demonstrates strong performance across seven classification tasks of the GLUE benchmark (e.g., 72.3/73.8 on MNLI-m/mm and 92.8 on SST-2), significantly outperforming zero-shot prompting methods and achieving even comparable results to strong few-shot approaches using 32 training samples per class.
関連論文リスト
- SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Heuristic-enhanced Candidates Selection strategy for GPTs tackle Few-Shot Aspect-Based Sentiment Analysis [1.5020330976600738]
本論文は、ヒューリスティック・エンハンスド・候補選択戦略を設計し、それに基づくオール・イン・ワン(AiO)モデルを提案する。
このモデルは2段階で動作し、PLMの精度と一般化の能力を同時に調節する。
実験の結果,提案手法は複数のサブタスクに適応し,GPTを直接利用する手法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-09T07:02:14Z) - Universal Self-Adaptive Prompting [60.67460565566514]
Universal Self-Adaptive Prompting (USP) はゼロショット学習に適した自動プロンプト設計手法である。
USPは普遍的なプロンプトを達成するために、可能なNLPタスクを3つの可能なタスクタイプのうちの1つに分類する。
我々は,PaLMおよびPaLM 2モデルを用いてUSPを評価し,標準ゼロショットベースラインよりもかなり強い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T09:09:48Z) - Tuning Language Models as Training Data Generators for
Augmentation-Enhanced Few-Shot Learning [30.65315081964461]
プレトレーニング言語モデル(PLM)を用いて、異なる視点から数発の学習を学習する。
まず,数発のサンプルに対して自己回帰型PLMをチューニングし,それをジェネレータとして使用して,大量の新規トレーニングサンプルを合成する。
我々のアプローチであるFewGenは、GLUEベンチマークの7つの分類タスクに対して、既存の数ショット学習方法よりも総合的に優れた結果が得られる。
論文 参考訳(メタデータ) (2022-11-06T06:46:47Z) - ZeroGen$^+$: Self-Guided High-Quality Data Generation in Efficient
Zero-Shot Learning [97.2907428983142]
ZeroGenは、純粋にPLMを使用してデータを生成し、タスク固有のアノテーションに頼ることなく、小さなモデルをトレーニングする。
金のデータを必要とせずに、サンプルごとの重み付けを学習できるノイズローバストなバイレベル再重み付けフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:38:48Z) - Prompt Tuning for Discriminative Pre-trained Language Models [96.04765512463415]
最近の研究は、自然言語処理(NLP)タスクに事前訓練言語モデル(PLM)を刺激する際の迅速なチューニングの有望な結果を示している。
ELECTRAのような差別的なPLMが、いかに効果的に迅速なチューニングが可能かは、まだ不明である。
DPTは,NLPタスクを識別言語モデリング問題に書き換える,識別型PLMの最初のプロンプトチューニングフレームワークである。
論文 参考訳(メタデータ) (2022-05-23T10:11:50Z) - AdaPrompt: Adaptive Model Training for Prompt-based NLP [77.12071707955889]
PLMの継続事前学習のための外部データを適応的に検索するAdaPromptを提案する。
5つのNLPベンチマークの実験結果から、AdaPromptは数ショット設定で標準PLMよりも改善可能であることが示された。
ゼロショット設定では、標準のプロンプトベースの手法を26.35%の相対誤差削減で上回ります。
論文 参考訳(メタデータ) (2022-02-10T04:04:57Z) - Prompt-Learning for Fine-Grained Entity Typing [40.983849729537795]
完全教師付き,少数ショット,ゼロショットシナリオにおける微粒化エンティティタイピングに対するプロンプトラーニングの適用について検討する。
本稿では,エンティティタイプの情報を自動的に要約するために,プロンプトラーニングにおける分布レベルの最適化を行う自己教師型戦略を提案する。
論文 参考訳(メタデータ) (2021-08-24T09:39:35Z) - Making Pre-trained Language Models Better Few-shot Learners [11.90626040104822]
最近のGPT-3モデルは、自然言語プロンプトといくつかのタスクデモンストレーションを入力コンテキストとして活用することで、驚くべき数ショットパフォーマンスを実現します。
これらの知見に触発されて,より実用的なシナリオで,微調整が計算効率のよい小型言語モデルを用いて,小数点学習の研究を行った。
LM-BFF - 少数の注釈付き例で、言語モデルの微調整のためのシンプルで補完的な技術のスイート - 言語モデルのより良い少数ショット微調整を提示します。
論文 参考訳(メタデータ) (2020-12-31T17:21:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。