論文の概要: PromDA: Prompt-based Data Augmentation for Low-Resource NLU Tasks
- arxiv url: http://arxiv.org/abs/2202.12499v1
- Date: Fri, 25 Feb 2022 05:09:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-28 22:47:44.489887
- Title: PromDA: Prompt-based Data Augmentation for Low-Resource NLU Tasks
- Title(参考訳): PromDA: 低リソースのNLUタスクのためのpromptベースのデータ拡張
- Authors: Yufei Wang, Can Xu, Qingfeng Sun, Huang Hu, Chongyang Tao, Xiubo Geng,
Daxin Jiang
- Abstract要約: 本稿では,低リソース自然言語理解(NLU)タスクのためのデータ拡張について述べる。
小型ソフト・プロンプトのみを訓練するPrompt-based Data Augmentation Model (PromDA)を提案する。
PromDAは2つの異なるビューを通して合成データを生成し、低品質データをNLUモデルを用いてフィルタリングする。
- 参考スコア(独自算出の注目度): 61.51515750218049
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper focuses on the Data Augmentation for low-resource Natural Language
Understanding (NLU) tasks. We propose Prompt-based D}ata Augmentation model
(PromDA) which only trains small-scale Soft Prompt (i.e., a set of trainable
vectors) in the frozen Pre-trained Language Models (PLMs). This avoids human
effort in collecting unlabeled in-domain data and maintains the quality of
generated synthetic data. In addition, PromDA generates synthetic data via two
different views and filters out the low-quality data using NLU models.
Experiments on four benchmarks show that synthetic data produced by PromDA
successfully boost up the performance of NLU models which consistently
outperform several competitive baseline models, including a state-of-the-art
semi-supervised model using unlabeled in-domain data. The synthetic data from
PromDA are also complementary with unlabeled in-domain data. The NLU models can
be further improved when they are combined for training.
- Abstract(参考訳): 本稿では,低リソース自然言語理解(NLU)タスクのためのデータ拡張について述べる。
フリーズプレトレーニング言語モデル(PLM)において,小型ソフト・プロンプト(訓練可能なベクトルの集合)のみを訓練するPrompt-based D}ata Augmentation Model(PromDA)を提案する。
これにより、ラベルのないドメイン内のデータを収集する作業が回避され、生成された合成データの質が維持される。
さらに、PromDAは2つの異なるビューを通して合成データを生成し、低品質データをNLUモデルを用いてフィルタリングする。
4つのベンチマーク実験により、PromDAが生成した合成データによりNLUモデルの性能が向上し、非ラベル付きドメインデータを用いた最先端の半教師付きモデルなど、いくつかの競争ベースラインモデルを上回る結果が得られた。
promdaの合成データは、ラベルなしのドメイン内データも補完する。
NLUモデルは、トレーニング用に組み合わせることでさらに改善することができる。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Can Medical Vision-Language Pre-training Succeed with Purely Synthetic Data? [8.775988650381397]
医療ビジョン言語による事前トレーニングモデルのトレーニングには、ペアで高品質な画像テキストデータを備えたデータセットが必要である。
近年の大規模言語モデルの進歩により,大規模合成画像テキストペアの生成が可能になった。
多様な高品質な合成データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2024-10-17T13:11:07Z) - Generating Synthetic Datasets for Few-shot Prompt Tuning [48.10054761841462]
数ショットの学習設定では、フルモデルの微調整よりもはるかに遅れて、アプリケーションのスコープが制限される。
本稿では,ソフトプロンプトを学習するために,強力なLCMを用いてタスク固有のラベル付きデータを合成する。
我々は、勾配手術アプローチを用いて、合成データセットと実データセットの両方でソフトプロンプトを訓練する。
論文 参考訳(メタデータ) (2024-10-08T01:00:02Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Practical Knowledge Distillation: Using DNNs to Beat DNNs [8.121769391666547]
データとモデルの蒸留、およびデータのデノイングについて検討する。
これらの技術は、勾配ブースティングモデルと特殊なDNNアーキテクチャの両方を改善する。
産業用エンドツーエンドのMLプラットフォームで毎秒4Mのプロダクション推論を行う場合,データサンプリングに基づくモデルトレーニングワークフローを開発する。
経験的評価により,提案手法の組み合わせは,世界規模で展開されている複数のプロダクションアプリケーションにおいて,先行最良モデルよりもモデル精度を一貫して向上することが示された。
論文 参考訳(メタデータ) (2023-02-23T22:53:02Z) - DQI: Measuring Data Quality in NLP [22.54066527822898]
データ品質指標(DQI)の一般的な式を導入し、データセット作成者が望ましくないバイアスのないデータセットを作成するのを支援する。
SNLIデータセットを用いてトレーニングしたモデルが,分散タスクの外部に一般化できることが示される。
論文 参考訳(メタデータ) (2020-05-02T12:34:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。