論文の概要: ZeroGen$^+$: Self-Guided High-Quality Data Generation in Efficient
Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2205.12679v1
- Date: Wed, 25 May 2022 11:38:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 14:37:15.845376
- Title: ZeroGen$^+$: Self-Guided High-Quality Data Generation in Efficient
Zero-Shot Learning
- Title(参考訳): ZeroGen$^+$:効率的なゼロショット学習における自己ガイド付き高品質データ生成
- Authors: Jiahui Gao, Renjie Pi, Yong Lin, Hang Xu, Jiacheng Ye, Zhiyong Wu,
Xiaodan Liang, Zhenguo Li, Lingpeng Kong
- Abstract要約: ZeroGenは、純粋にPLMを使用してデータを生成し、タスク固有のアノテーションに頼ることなく、小さなモデルをトレーニングする。
金のデータを必要とせずに、サンプルごとの重み付けを学習できるノイズローバストなバイレベル再重み付けフレームワークを提案する。
- 参考スコア(独自算出の注目度): 97.2907428983142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nowadays, owing to the superior capacity of the large pre-trained language
models (PLM), the PLM-based zero-shot learning has shown promising performances
on various natural language processing tasks. There are emerging interests in
further exploring the zero-shot learning potential of PLMs. Among them, ZeroGen
attempts to purely use PLM to generate data and train a tiny model without
relying on any task-specific annotation. Despite its remarkable results, we
observe that the synthesized data from PLM contains a significant portion of
samples with low quality, overfitting on such data greatly hampers the
performance of the trained model and makes it unreliable for deployment.Since
no gold data is accessible in zero-shot scenario, it is hard to perform
model/data selection to prevent overfitting to the low-quality data. To address
this problem, we propose a noise-robust bi-level re-weighting framework which
is able to learn the per-sample weights measuring the data quality without
requiring any gold data. With the learnt weights, clean subsets of different
sizes can then be sampled to train the task model. We theoretically and
empirically verify our method is able to construct synthetic dataset with good
quality. Our method yeilds a 7.1% relative improvement than ZeroGen on average
accuracy across five different established text classification tasks.
- Abstract(参考訳): 近年,PLM をベースとしたゼロショット学習は,大規模事前学習型言語モデル (PLM) の優れた能力のため,様々な自然言語処理タスクにおいて有望な性能を示した。
PLMのゼロショット学習の可能性をさらに探求することへの関心が高まっている。
その中でもzerogenは、純粋にplmを使ってデータを生成し、タスク固有のアノテーションを使わずに小さなモデルをトレーニングしようとする。
その顕著な結果にもかかわらず, PLM から合成したデータには, 低品質のサンプルが多数含まれており, トレーニングされたモデルの性能が過度に損なわれ, 信頼性が低いため, ゼロショットシナリオではゴールドデータがアクセスできないため, 低品質のデータに過度に適合しないように, モデル/データ選択を行うことは困難である。
この問題に対処するために, 金のデータを必要とせず, サンプル単位の重み付けでデータ品質を計測できる, ノイズロバストbiレベル再重み付けフレームワークを提案する。
学習重量では、異なるサイズのクリーンなサブセットをサンプルしてタスクモデルをトレーニングすることができる。
提案手法が高品質な合成データセットを構築可能であることを理論的,実証的に検証する。
本手法は,5種類のテキスト分類タスクの平均精度において,ZeroGenよりも7.1%向上した。
関連論文リスト
- Clear Preferences Leave Traces: Reference Model-Guided Sampling for Preference Learning [59.11519451499754]
直接選好最適化(DPO)は、言語モデルと人間の選好を整合させるデファクトアプローチとして登場した。
最近の研究によると、DPOの有効性はデータ品質のトレーニングに依存している。
基準モデル確率空間は,高品質なトレーニングサンプルを自然に検出する。
論文 参考訳(メタデータ) (2025-01-25T07:21:50Z) - Evaluating Language Models as Synthetic Data Generators [74.80905172696366]
AgoraBenchは、LMのデータ生成能力を評価するための標準化された設定とメトリクスを提供するベンチマークである。
6つのLMを使って126万のトレーニングインスタンスを合成し、99の学生モデルをトレーニングすることで、LMのデータ生成能力に関する重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2024-12-04T19:20:32Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Tuning Language Models as Training Data Generators for
Augmentation-Enhanced Few-Shot Learning [30.65315081964461]
プレトレーニング言語モデル(PLM)を用いて、異なる視点から数発の学習を学習する。
まず,数発のサンプルに対して自己回帰型PLMをチューニングし,それをジェネレータとして使用して,大量の新規トレーニングサンプルを合成する。
我々のアプローチであるFewGenは、GLUEベンチマークの7つの分類タスクに対して、既存の数ショット学習方法よりも総合的に優れた結果が得られる。
論文 参考訳(メタデータ) (2022-11-06T06:46:47Z) - ProGen: Progressive Zero-shot Dataset Generation via In-context Feedback [21.168991554983815]
本稿では,プログレッシブなゼロショットデータセット生成フレームワークであるProGenを提案する。
ProGenは、1%の合成データセットサイズで、オンパーまたは優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-22T02:07:10Z) - ZeroGen: Efficient Zero-shot Learning via Dataset Generation [28.454620513642034]
柔軟で効率的なゼロショート学習手法であるZeroGenについて検討する。
ゼロショットタスクが与えられた場合、まず、教師なしの方法で PLM を用いて、スクラッチからデータセットを生成する。
テキスト分類、質問応答、自然言語推論といった異なるNLPタスクの実験と分析は、ZeroGenの有効性を示している。
論文 参考訳(メタデータ) (2022-02-16T08:18:02Z) - Towards Zero-Label Language Learning [20.28186484098947]
本稿では自然言語処理(NLP)におけるゼロラベル学習について検討する。
トレーニング中、どこにでも人間の注釈付きデータを使用しず、モデルが純粋に合成データに基づいて訓練される。
GPT-3における数発の推論の成功に触発されて、教師なしデータ生成というトレーニングデータ生成手順を提案する。
論文 参考訳(メタデータ) (2021-09-19T19:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。