論文の概要: Tuning Language Models as Training Data Generators for
Augmentation-Enhanced Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2211.03044v2
- Date: Fri, 12 May 2023 06:06:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 16:10:52.107430
- Title: Tuning Language Models as Training Data Generators for
Augmentation-Enhanced Few-Shot Learning
- Title(参考訳): 強化Few-Shot学習のためのトレーニングデータジェネレータとしての言語モデル
- Authors: Yu Meng, Martin Michalski, Jiaxin Huang, Yu Zhang, Tarek Abdelzaher,
Jiawei Han
- Abstract要約: プレトレーニング言語モデル(PLM)を用いて、異なる視点から数発の学習を学習する。
まず,数発のサンプルに対して自己回帰型PLMをチューニングし,それをジェネレータとして使用して,大量の新規トレーニングサンプルを合成する。
我々のアプローチであるFewGenは、GLUEベンチマークの7つの分類タスクに対して、既存の数ショット学習方法よりも総合的に優れた結果が得られる。
- 参考スコア(独自算出の注目度): 30.65315081964461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have revealed the intriguing few-shot learning ability of
pretrained language models (PLMs): They can quickly adapt to a new task when
fine-tuned on a small amount of labeled data formulated as prompts, without
requiring abundant task-specific annotations. Despite their promising
performance, most existing few-shot approaches that only learn from the small
training set still underperform fully supervised training by nontrivial
margins. In this work, we study few-shot learning with PLMs from a different
perspective: We first tune an autoregressive PLM on the few-shot samples and
then use it as a generator to synthesize a large amount of novel training
samples which augment the original training set. To encourage the generator to
produce label-discriminative samples, we train it via weighted maximum
likelihood where the weight of each token is automatically adjusted based on a
discriminative meta-learning objective. A classification PLM can then be
fine-tuned on both the few-shot and the synthetic samples with regularization
for better generalization and stability. Our approach FewGen achieves an
overall better result across seven classification tasks of the GLUE benchmark
than existing few-shot learning methods, improving no-augmentation methods by
5+ average points, and outperforming augmentation methods by 3+ average points.
- Abstract(参考訳): 最近の研究は、事前訓練された言語モデル(PLM)の興味深い数発の学習能力を明らかにしている: タスク固有のアノテーションを必要とせず、プロンプトとして表現された少量のラベル付きデータに微調整を施すと、新しいタスクに迅速に適応できる。
有望なパフォーマンスにもかかわらず、小さなトレーニングセットからしか学ばない既存の数発のアプローチは、非自明なマージンによる完全な教師付きトレーニングをまだ下回っている。
本研究は, PLMを用いた数ショット学習について, 異なる視点から検討する: まず, 数ショットサンプルに自己回帰型PLMをチューニングし, 生成体として使用して, 元のトレーニングセットを増強する大量の新規トレーニングサンプルを合成する。
ラベル識別サンプルの作成を促すため,各トークンの重みが識別メタ学習目標に基づいて自動的に調整される重み付き最大度を用いて学習する。
分類PLMは、より高度な一般化と安定性のために、数ショットと合成サンプルの両方で微調整することができる。
提案手法は,従来手法に比べて7つの分類タスクにまたがる総合的な結果を達成し,無示板法を5以上の平均点で改善し,加算法を3以上の平均点で上回った。
関連論文リスト
- Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Learning New Tasks from a Few Examples with Soft-Label Prototypes [18.363177410917597]
ソフトラベルのプロトタイプ(SLP)に基づく新しい数ショット学習手法を提案する。
これまでにないNLPタスク(4,8,16)の学習に重点を置いている。
このデータ・リーン・セッティングにおけるテスト作業の大部分において,本手法が優れた性能を発揮することを実験的に実証した。
論文 参考訳(メタデータ) (2022-10-31T16:06:48Z) - Gradient-Based Meta-Learning Using Uncertainty to Weigh Loss for
Few-Shot Learning [5.691930884128995]
Model-Agnostic Meta-Learning (MAML)は、数発の学習において最も成功したメタラーニング手法の1つである。
タスク固有の学習者に対して,タスクの損失を最小限に抑えるパラメータの選択を適応的に学習する手法を提案する。
メソッド1はメタロス差を比較して重みを生成し、クラスが少ない場合の精度を向上させる。
方法2は、各タスクの相補的不確実性を導入し、元の勾配降下に基づいて複数の損失を重み付けする。
論文 参考訳(メタデータ) (2022-08-17T08:11:51Z) - ZeroGen$^+$: Self-Guided High-Quality Data Generation in Efficient
Zero-Shot Learning [97.2907428983142]
ZeroGenは、純粋にPLMを使用してデータを生成し、タスク固有のアノテーションに頼ることなく、小さなモデルをトレーニングする。
金のデータを必要とせずに、サンプルごとの重み付けを学習できるノイズローバストなバイレベル再重み付けフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:38:48Z) - Generating Training Data with Language Models: Towards Zero-Shot
Language Understanding [35.92571138322246]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
NLUタスクのゼロショット学習に両タイプのPLMを用いる簡単な手法を提案する。
提案手法は,GLUEベンチマークの7つの分類タスクに対して高い性能を示す。
論文 参考訳(メタデータ) (2022-02-09T16:02:18Z) - LiST: Lite Self-training Makes Efficient Few-shot Learners [91.28065455714018]
LiSTは古典的な微調整法よりも35%改善し、プロンプトチューニングよりも6%改善した。
論文 参考訳(メタデータ) (2021-10-12T18:47:18Z) - Few Is Enough: Task-Augmented Active Meta-Learning for Brain Cell
Classification [8.998976678920236]
本稿では,Deep Neural Networks を新しいタスクに効率的に適応する tAsk-auGmented actIve meta-LEarning (AGILE) 手法を提案する。
AGILEはメタ学習アルゴリズムと,初期適応モデルを生成するための新しいタスク拡張手法を組み合わせる。
提案するタスク強化メタラーニングフレームワークは,1段階の段階を経て,新たな細胞タイプを分類することができることを示す。
論文 参考訳(メタデータ) (2020-07-09T18:03:12Z) - To Pretrain or Not to Pretrain: Examining the Benefits of Pretraining on
Resource Rich Tasks [25.05882459314221]
トレーニングサンプルの数が数百万に増加するにつれ,細粒化BERTモデルと訓練用バニラLSTMとの精度のギャップは,スクラッチ狭さから1%以内に拡大した。
その結果,教師付きデータのサイズが大幅に大きくなるにつれて,事前学習したモデルではリターンポイントが低下する可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-15T18:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。