論文の概要: PromDA: Prompt-based Data Augmentation for Low-Resource NLU Tasks
- arxiv url: http://arxiv.org/abs/2202.12499v1
- Date: Fri, 25 Feb 2022 05:09:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-28 22:47:44.489887
- Title: PromDA: Prompt-based Data Augmentation for Low-Resource NLU Tasks
- Title(参考訳): PromDA: 低リソースのNLUタスクのためのpromptベースのデータ拡張
- Authors: Yufei Wang, Can Xu, Qingfeng Sun, Huang Hu, Chongyang Tao, Xiubo Geng,
Daxin Jiang
- Abstract要約: 本稿では,低リソース自然言語理解(NLU)タスクのためのデータ拡張について述べる。
小型ソフト・プロンプトのみを訓練するPrompt-based Data Augmentation Model (PromDA)を提案する。
PromDAは2つの異なるビューを通して合成データを生成し、低品質データをNLUモデルを用いてフィルタリングする。
- 参考スコア(独自算出の注目度): 61.51515750218049
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper focuses on the Data Augmentation for low-resource Natural Language
Understanding (NLU) tasks. We propose Prompt-based D}ata Augmentation model
(PromDA) which only trains small-scale Soft Prompt (i.e., a set of trainable
vectors) in the frozen Pre-trained Language Models (PLMs). This avoids human
effort in collecting unlabeled in-domain data and maintains the quality of
generated synthetic data. In addition, PromDA generates synthetic data via two
different views and filters out the low-quality data using NLU models.
Experiments on four benchmarks show that synthetic data produced by PromDA
successfully boost up the performance of NLU models which consistently
outperform several competitive baseline models, including a state-of-the-art
semi-supervised model using unlabeled in-domain data. The synthetic data from
PromDA are also complementary with unlabeled in-domain data. The NLU models can
be further improved when they are combined for training.
- Abstract(参考訳): 本稿では,低リソース自然言語理解(NLU)タスクのためのデータ拡張について述べる。
フリーズプレトレーニング言語モデル(PLM)において,小型ソフト・プロンプト(訓練可能なベクトルの集合)のみを訓練するPrompt-based D}ata Augmentation Model(PromDA)を提案する。
これにより、ラベルのないドメイン内のデータを収集する作業が回避され、生成された合成データの質が維持される。
さらに、PromDAは2つの異なるビューを通して合成データを生成し、低品質データをNLUモデルを用いてフィルタリングする。
4つのベンチマーク実験により、PromDAが生成した合成データによりNLUモデルの性能が向上し、非ラベル付きドメインデータを用いた最先端の半教師付きモデルなど、いくつかの競争ベースラインモデルを上回る結果が得られた。
promdaの合成データは、ラベルなしのドメイン内データも補完する。
NLUモデルは、トレーニング用に組み合わせることでさらに改善することができる。
関連論文リスト
- Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - TarGEN: Targeted Data Generation with Large Language Models [54.1093098278564]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Private Synthetic Data Meets Ensemble Learning [15.425653946755025]
機械学習モデルが合成データに基づいてトレーニングされ、実際のデータにデプロイされると、しばしばパフォーマンス低下が発生する。
実データを用いた場合のパフォーマンス向上を目標として,下流モデルのトレーニングのための新たなアンサンブル戦略を導入する。
論文 参考訳(メタデータ) (2023-10-15T04:24:42Z) - Data Distillation Can Be Like Vodka: Distilling More Times For Better
Quality [78.6359306550245]
蒸留に1つの合成部分集合を用いるだけでは最適な一般化性能は得られない。
PDDは複数の小さな合成画像集合を合成し、それぞれ前の集合に条件付けし、これらの部分集合の累積和でモデルを訓練する。
実験の結果, PDDは既存のデータセット蒸留法の性能を最大4.3%向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-10-10T20:04:44Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Practical Knowledge Distillation: Using DNNs to Beat DNNs [8.121769391666547]
データとモデルの蒸留、およびデータのデノイングについて検討する。
これらの技術は、勾配ブースティングモデルと特殊なDNNアーキテクチャの両方を改善する。
産業用エンドツーエンドのMLプラットフォームで毎秒4Mのプロダクション推論を行う場合,データサンプリングに基づくモデルトレーニングワークフローを開発する。
経験的評価により,提案手法の組み合わせは,世界規模で展開されている複数のプロダクションアプリケーションにおいて,先行最良モデルよりもモデル精度を一貫して向上することが示された。
論文 参考訳(メタデータ) (2023-02-23T22:53:02Z) - ProGen: Progressive Zero-shot Dataset Generation via In-context Feedback [21.168991554983815]
本稿では,プログレッシブなゼロショットデータセット生成フレームワークであるProGenを提案する。
ProGenは、1%の合成データセットサイズで、オンパーまたは優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-22T02:07:10Z) - DQI: Measuring Data Quality in NLP [22.54066527822898]
データ品質指標(DQI)の一般的な式を導入し、データセット作成者が望ましくないバイアスのないデータセットを作成するのを支援する。
SNLIデータセットを用いてトレーニングしたモデルが,分散タスクの外部に一般化できることが示される。
論文 参考訳(メタデータ) (2020-05-02T12:34:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。