論文の概要: ZeroShotDataAug: Generating and Augmenting Training Data with ChatGPT
- arxiv url: http://arxiv.org/abs/2304.14334v1
- Date: Thu, 27 Apr 2023 17:07:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 12:32:14.484076
- Title: ZeroShotDataAug: Generating and Augmenting Training Data with ChatGPT
- Title(参考訳): ZeroShotDataAug: ChatGPTによるトレーニングデータの生成と拡張
- Authors: Solomon Ubani, Suleyman Olcay Polat, Rodney Nielsen
- Abstract要約: 本稿では,大規模な生成言語モデルであるChatGPTから得られたデータを用いて,低リソースシナリオにおけるデータ拡張を目的とした合成トレーニングデータを生成する。
タスク固有のChatGPTプロンプトによって、そのようなデータ拡張に対して最も一般的なアプローチよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 2.320417845168326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we investigate the use of data obtained from prompting a large
generative language model, ChatGPT, to generate synthetic training data with
the aim of augmenting data in low resource scenarios. We show that with
appropriate task-specific ChatGPT prompts, we outperform the most popular
existing approaches for such data augmentation. Furthermore, we investigate
methodologies for evaluating the similarity of the augmented data generated
from ChatGPT with the aim of validating and assessing the quality of the data
generated.
- Abstract(参考訳): 本稿では,大規模な生成言語モデルであるchatgptを用いて,低資源シナリオにおけるデータ拡張を目的とした合成訓練データを生成するデータの利用について検討する。
タスク固有のChatGPTプロンプトによって、そのようなデータ拡張に対して最も一般的なアプローチよりも優れていることを示す。
さらに,chatgptから生成された拡張データの類似性を評価するための手法について検討し,生成したデータの品質の検証・評価を行う。
関連論文リスト
- Integrating AI in Educational Measurement: ChatGPT's Efficacy in Item
Response Theory Data Generation [0.0]
ChatGPT (ChatGPT) は、R言語を用いてアイテム応答理論(IRT)のデータを生成するプログラムである。
本研究では一次元性や局所独立性といったIRTの仮定に対してChatGPTが生成したデータセットを評価する。
論文 参考訳(メタデータ) (2024-01-28T16:10:56Z) - Benchmarking and Analyzing Generative Data for Visual Recognition [66.55174903469722]
この研究は生成的画像の影響を深く掘り下げ、主に外部データを利用するパラダイムを比較する。
我々は、2548のカテゴリを持つ22のデータセットからなるベンチマークである textbfGenBench を考案し、様々な視覚的認識タスクにまたがる生成データを評価した。
我々の徹底的なベンチマークと分析は、将来の調査における重要な課題を特定しながら、視覚認識における生成データの約束をスポットライトで示している。
論文 参考訳(メタデータ) (2023-07-25T17:59:59Z) - Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。
本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。
提案手法により,下流タスクの性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-03-08T03:56:31Z) - AugGPT: Leveraging ChatGPT for Text Data Augmentation [59.76140039943385]
本稿では,ChatGPT(AugGPT)に基づくテキストデータ拡張手法を提案する。
AugGPTはトレーニングサンプルの各文を、概念的には似ているが意味的に異なる複数のサンプルに言い換える。
数ショットの学習テキスト分類タスクの実験結果は、提案したAugGPTアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-25T06:58:16Z) - Data Augmentation for Intent Classification with Off-the-shelf Large
Language Models [13.895236210726202]
市販言語モデルを用いた意図分類のためのラベル付き学習データを生成するためのプロンプトベースアプローチを提案する。
提案手法を4つの多目的分類タスクで数ショットで評価する。
論文 参考訳(メタデータ) (2022-04-05T03:29:26Z) - Generative Conversational Networks [67.13144697969501]
本稿では,対話エージェントが独自のラベル付き学習データを生成することを学習する,生成会話ネットワーク(Generative Conversational Networks)というフレームワークを提案する。
そこで本研究では,シードデータから学習したベースラインモデルに対して,意図検出が平均35%,スロットタグが平均21%向上したことを示す。
論文 参考訳(メタデータ) (2021-06-15T23:19:37Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z) - Data Weighted Training Strategies for Grammatical Error Correction [8.370770440898454]
文法的誤り訂正(GEC)のトレーニングスケジュールにデルタ-log-perplexityを組み込む方法を示す。
得られたデータに基づいて訓練されたモデルは、一般的なGECテストセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-08-07T03:30:14Z) - Generative Data Augmentation for Commonsense Reasoning [75.26876609249197]
G-DAUGCは、低リソース環境でより正確で堅牢な学習を実現することを目的とした、新しい生成データ拡張手法である。
G-DAUGCは、バックトランスレーションに基づく既存のデータ拡張手法を一貫して上回っている。
分析の結果,G-DAUGCは多種多様な流線型学習例を産出し,その選択と学習アプローチが性能向上に重要であることが示された。
論文 参考訳(メタデータ) (2020-04-24T06:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。