論文の概要: ZeroShotDataAug: Generating and Augmenting Training Data with ChatGPT
- arxiv url: http://arxiv.org/abs/2304.14334v1
- Date: Thu, 27 Apr 2023 17:07:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 12:32:14.484076
- Title: ZeroShotDataAug: Generating and Augmenting Training Data with ChatGPT
- Title(参考訳): ZeroShotDataAug: ChatGPTによるトレーニングデータの生成と拡張
- Authors: Solomon Ubani, Suleyman Olcay Polat, Rodney Nielsen
- Abstract要約: 本稿では,大規模な生成言語モデルであるChatGPTから得られたデータを用いて,低リソースシナリオにおけるデータ拡張を目的とした合成トレーニングデータを生成する。
タスク固有のChatGPTプロンプトによって、そのようなデータ拡張に対して最も一般的なアプローチよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 2.320417845168326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we investigate the use of data obtained from prompting a large
generative language model, ChatGPT, to generate synthetic training data with
the aim of augmenting data in low resource scenarios. We show that with
appropriate task-specific ChatGPT prompts, we outperform the most popular
existing approaches for such data augmentation. Furthermore, we investigate
methodologies for evaluating the similarity of the augmented data generated
from ChatGPT with the aim of validating and assessing the quality of the data
generated.
- Abstract(参考訳): 本稿では,大規模な生成言語モデルであるchatgptを用いて,低資源シナリオにおけるデータ拡張を目的とした合成訓練データを生成するデータの利用について検討する。
タスク固有のChatGPTプロンプトによって、そのようなデータ拡張に対して最も一般的なアプローチよりも優れていることを示す。
さらに,chatgptから生成された拡張データの類似性を評価するための手法について検討し,生成したデータの品質の検証・評価を行う。
関連論文リスト
- Generative Data Augmentation Challenge: Zero-Shot Speech Synthesis for Personalized Speech Enhancement [54.51467153859695]
本稿では、下流タスクのための音声データ、パーソナライズされた音声強調(PSE)を強化するために、ゼロショット音声合成(TTS)システムを要求する新しい課題を提案する。
ゼロショットTSモデルによって生成された拡張データの質がPSEモデルの性能にどのように影響するかを検討することを目的とする。
論文 参考訳(メタデータ) (2025-01-23T04:27:37Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Targeted synthetic data generation for tabular data via hardness characterization [0.0]
本稿では,高価値な学習点のみを生成する簡単な拡張パイプラインを提案する。
提案手法はサンプル外予測の品質を向上し,非対象手法と比較して計算効率が向上する。
論文 参考訳(メタデータ) (2024-10-01T14:54:26Z) - A Comprehensive Survey on Data Augmentation [55.355273602421384]
データ拡張(Data augmentation)は、既存のデータサンプルを操作することによって高品質な人工データを生成する技術である。
既存の文献調査では、特定のモダリティデータにのみ焦点が当てられている。
本稿では,異なる共通データモダリティのためのデータ拡張技術を含む,より啓蒙的な分類法を提案する。
論文 参考訳(メタデータ) (2024-05-15T11:58:08Z) - Benchmarking and Analyzing Generative Data for Visual Recognition [66.55174903469722]
この研究は生成的画像の影響を深く掘り下げ、主に外部データを利用するパラダイムを比較する。
我々は、2548のカテゴリを持つ22のデータセットからなるベンチマークである textbfGenBench を考案し、様々な視覚的認識タスクにまたがる生成データを評価した。
我々の徹底的なベンチマークと分析は、将来の調査における重要な課題を特定しながら、視覚認識における生成データの約束をスポットライトで示している。
論文 参考訳(メタデータ) (2023-07-25T17:59:59Z) - Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。
本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。
提案手法により,下流タスクの性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-03-08T03:56:31Z) - AugGPT: Leveraging ChatGPT for Text Data Augmentation [59.76140039943385]
本稿では,ChatGPT(AugGPT)に基づくテキストデータ拡張手法を提案する。
AugGPTはトレーニングサンプルの各文を、概念的には似ているが意味的に異なる複数のサンプルに言い換える。
数ショットの学習テキスト分類タスクの実験結果は、提案したAugGPTアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-25T06:58:16Z) - Data Augmentation for Intent Classification with Off-the-shelf Large
Language Models [13.895236210726202]
市販言語モデルを用いた意図分類のためのラベル付き学習データを生成するためのプロンプトベースアプローチを提案する。
提案手法を4つの多目的分類タスクで数ショットで評価する。
論文 参考訳(メタデータ) (2022-04-05T03:29:26Z) - Data Weighted Training Strategies for Grammatical Error Correction [8.370770440898454]
文法的誤り訂正(GEC)のトレーニングスケジュールにデルタ-log-perplexityを組み込む方法を示す。
得られたデータに基づいて訓練されたモデルは、一般的なGECテストセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-08-07T03:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。