論文の概要: CoDa: Constrained Generation based Data Augmentation for Low-Resource NLP
- arxiv url: http://arxiv.org/abs/2404.00415v1
- Date: Sat, 30 Mar 2024 16:47:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 03:49:50.872880
- Title: CoDa: Constrained Generation based Data Augmentation for Low-Resource NLP
- Title(参考訳): CoDa:低リソースNLPのための制約付き生成ベースデータ拡張
- Authors: Chandra Kiran Reddy Evuru, Sreyan Ghosh, Sonal Kumar, Ramaneswaran S, Utkarsh Tyagi, Dinesh Manocha,
- Abstract要約: CoDaは、低リソース(データスカース)NLPのための制御可能で、効果的で、トレーニング不要なデータ拡張技術である。
提案手法は,市販の命令追従型大規模言語モデルに基づく。
CoDaは、拡張生成プロセスに対する明示的な制御を提供する最初のフレームワークである。
- 参考スコア(独自算出の注目度): 46.95923453967386
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present CoDa (Constrained Generation based Data Augmentation), a controllable, effective, and training-free data augmentation technique for low-resource (data-scarce) NLP. Our approach is based on prompting off-the-shelf instruction-following Large Language Models (LLMs) for generating text that satisfies a set of constraints. Precisely, we extract a set of simple constraints from every instance in the low-resource dataset and verbalize them to prompt an LLM to generate novel and diverse training instances. Our findings reveal that synthetic data that follows simple constraints in the downstream dataset act as highly effective augmentations, and CoDa can achieve this without intricate decoding-time constrained generation techniques or fine-tuning with complex algorithms that eventually make the model biased toward the small number of training instances. Additionally, CoDa is the first framework that provides users explicit control over the augmentation generation process, thereby also allowing easy adaptation to several domains. We demonstrate the effectiveness of CoDa across 11 datasets spanning 3 tasks and 3 low-resource settings. CoDa outperforms all our baselines, qualitatively and quantitatively, with improvements of 0.12%-7.19%. Code is available here: https://github.com/Sreyan88/CoDa
- Abstract(参考訳): 我々は、低リソース(データスカース)NLPのための制御可能で、効果的で、トレーニング不要なデータ拡張技術であるCoDa(Constrained Generation based Data Augmentation)を提案する。
我々のアプローチは、制約セットを満たすテキストを生成するために、既製の命令追従型Large Language Model(LLMs)を促すことに基づいている。
正確には、低リソースデータセットのすべてのインスタンスから単純な制約を抽出し、言語化してLLMに新しい多様なトレーニングインスタンスを生成するように促します。
以上の結果から,下流データセットにおける単純な制約に従う合成データは,極めて効果的な拡張として機能し,CoDaは複雑な復号時間制約生成技術や複雑なアルゴリズムによる微調整を必要とせず,最終的には少数のトレーニングインスタンスに偏りを生じさせることなく実現可能であることがわかった。
さらに、CoDaは、ユーザが拡張生成プロセスに対して明示的なコントロールを提供することで、複数のドメインへの容易に適応できる最初のフレームワークである。
3つのタスクと3つの低リソース設定にまたがる11のデータセットにまたがるCoDaの有効性を示す。
CoDaは、全てのベースラインを質的に、定量的に上回り、0.12%-7.19%改善した。
コードはここにある。 https://github.com/Sreyan88/CoDa
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Generating Synthetic Datasets for Few-shot Prompt Tuning [48.10054761841462]
数ショットの学習設定では、フルモデルの微調整よりもはるかに遅れて、アプリケーションのスコープが制限される。
本稿では,ソフトプロンプトを学習するために,強力なLCMを用いてタスク固有のラベル付きデータを合成する。
我々は、勾配手術アプローチを用いて、合成データセットと実データセットの両方でソフトプロンプトを訓練する。
論文 参考訳(メタデータ) (2024-10-08T01:00:02Z) - Code Less, Align More: Efficient LLM Fine-tuning for Code Generation with Data Pruning [4.975728472540823]
各種クラスタリングとプルーニングのメトリクスを統合して、生成されたコードの正確性や機能を損なうことなく、トレーニングデータを選択的に削減する手法を提案する。
実験により,これらのプルーニング戦略は,必要な計算資源を削減するだけでなく,全体的な品質コード生成を向上することが示された。
論文 参考訳(メタデータ) (2024-07-06T10:30:43Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Mixture of Soft Prompts for Controllable Data Generation [21.84489422361048]
直接予測ではなく,データ拡張のためのツールとして,ソフトプロンプトの混合(MSP)を提案する。
提案手法は, 強いベースラインと比較した場合の3つのベンチマークに対して, 最先端の結果を得る。
論文 参考訳(メタデータ) (2023-03-02T21:13:56Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。