論文の概要: ProGen: Progressive Zero-shot Dataset Generation via In-context Feedback
- arxiv url: http://arxiv.org/abs/2210.12329v1
- Date: Sat, 22 Oct 2022 02:07:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 13:28:05.900109
- Title: ProGen: Progressive Zero-shot Dataset Generation via In-context Feedback
- Title(参考訳): progen: コンテキスト内フィードバックによるプログレッシブゼロショットデータセットの生成
- Authors: Jiacheng Ye, Jiahui Gao, Jiangtao Feng, Zhiyong Wu, Tao Yu, Lingpeng
Kong
- Abstract要約: 本稿では,プログレッシブなゼロショットデータセット生成フレームワークであるProGenを提案する。
ProGenは、1%の合成データセットサイズで、オンパーまたは優れたパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 21.168991554983815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, dataset-generation-based zero-shot learning has shown promising
results by training a task-specific model with a dataset synthesized from large
pre-trained language models (PLMs). The final task-specific model often
achieves compatible or even better performance than PLMs under the zero-shot
setting, with orders of magnitude fewer parameters. However, synthetic datasets
have their drawbacks. They have long been suffering from low-quality issues
(e.g., low informativeness and redundancy). This explains why the massive
synthetic data does not lead to better performance -- a scenario we would
expect in the human-labeled data. To improve the quality of dataset synthesis,
we propose a progressive zero-shot dataset generation framework, ProGen, which
leverages the feedback from the task-specific model to guide the generation of
new training data via in-context examples. Extensive experiments on five text
classification datasets demonstrate the effectiveness of the proposed approach.
We also show ProGen achieves on-par or superior performance with only 1\%
synthetic dataset size compared to baseline methods without in-context
feedback.
- Abstract(参考訳): 近年,大規模事前学習型言語モデル (plm) から合成したデータセットを用いて,タスク固有モデルを訓練することで有望な結果が得られた。
最終的なタスク特化モデルは、ゼロショット設定で PLM よりも互換性や性能が向上し、パラメータの桁数は桁違いであることが多い。
しかし、合成データセットには欠点がある。
彼らは長い間、低品質の問題(例えば、低情報性と冗長性)に苦しんできた。
これは、巨大な合成データがパフォーマンス向上に繋がらない理由を説明している。
データセット合成の質を向上させるために,タスク固有のモデルからのフィードバックを活用し,コンテキスト内例による新たなトレーニングデータ生成をガイドするプログレッシブゼロショットデータセット生成フレームワークProGenを提案する。
5つのテキスト分類データセットに関する広範な実験により,提案手法の有効性が示された。
また,ProGenはテキスト内フィードバックを伴わないベースライン手法と比較して,合成データセットサイズがわずか1\%のオンパーまたは優れたパフォーマンスを実現していることを示す。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Feedback-guided Data Synthesis for Imbalanced Classification [10.836265321046561]
有用な合成サンプルを用いて静的データセットを拡張するためのフレームワークを提案する。
サンプルはタスクの実際のデータのサポートに近づき、十分に多様であることに気付きました。
ImageNet-LTでは、表現不足のクラスでは4%以上改善され、最先端の結果が得られます。
論文 参考訳(メタデータ) (2023-09-29T21:47:57Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - ZeroGen$^+$: Self-Guided High-Quality Data Generation in Efficient
Zero-Shot Learning [97.2907428983142]
ZeroGenは、純粋にPLMを使用してデータを生成し、タスク固有のアノテーションに頼ることなく、小さなモデルをトレーニングする。
金のデータを必要とせずに、サンプルごとの重み付けを学習できるノイズローバストなバイレベル再重み付けフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:38:48Z) - ZeroGen: Efficient Zero-shot Learning via Dataset Generation [28.454620513642034]
柔軟で効率的なゼロショート学習手法であるZeroGenについて検討する。
ゼロショットタスクが与えられた場合、まず、教師なしの方法で PLM を用いて、スクラッチからデータセットを生成する。
テキスト分類、質問応答、自然言語推論といった異なるNLPタスクの実験と分析は、ZeroGenの有効性を示している。
論文 参考訳(メタデータ) (2022-02-16T08:18:02Z) - Improving Zero and Few-Shot Abstractive Summarization with Intermediate
Fine-tuning and Data Augmentation [101.26235068460551]
大規模テキストコーパス上での自己教師対象による事前学習モデルは、英語テキスト要約タスクにおける最先端のパフォーマンスを達成する。
モデルは通常、数十万のデータポイントで微調整されるが、これは新しいニッチなドメインに要約を適用する際に、実現不可能な要件である。
我々は、教師なし、データセット固有の方法で要約のための訓練済みモデルを微調整するための、WikiTransferと呼ばれる新しい一般化可能な手法を紹介した。
論文 参考訳(メタデータ) (2020-10-24T08:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。