Fugu-MT 論文翻訳(概要): ZeroShotDataAug: Generating and Augmenting Training Data with ChatGPT

論文の概要: ZeroShotDataAug: Generating and Augmenting Training Data with ChatGPT

arxiv url: http://arxiv.org/abs/2304.14334v1
Date: Thu, 27 Apr 2023 17:07:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-28 12:32:14.484076
Title: ZeroShotDataAug: Generating and Augmenting Training Data with ChatGPT
Title（参考訳）: ZeroShotDataAug: ChatGPTによるトレーニングデータの生成と拡張
Authors: Solomon Ubani, Suleyman Olcay Polat, Rodney Nielsen
Abstract要約: 本稿では,大規模な生成言語モデルであるChatGPTから得られたデータを用いて,低リソースシナリオにおけるデータ拡張を目的とした合成トレーニングデータを生成する。タスク固有のChatGPTプロンプトによって、そのようなデータ拡張に対して最も一般的なアプローチよりも優れていることを示す。
参考スコア（独自算出の注目度）: 2.320417845168326
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we investigate the use of data obtained from prompting a large generative language model, ChatGPT, to generate synthetic training data with the aim of augmenting data in low resource scenarios. We show that with appropriate task-specific ChatGPT prompts, we outperform the most popular existing approaches for such data augmentation. Furthermore, we investigate methodologies for evaluating the similarity of the augmented data generated from ChatGPT with the aim of validating and assessing the quality of the data generated.
Abstract（参考訳）: 本稿では,大規模な生成言語モデルであるchatgptを用いて,低資源シナリオにおけるデータ拡張を目的とした合成訓練データを生成するデータの利用について検討する。タスク固有のChatGPTプロンプトによって、そのようなデータ拡張に対して最も一般的なアプローチよりも優れていることを示す。さらに,chatgptから生成された拡張データの類似性を評価するための手法について検討し,生成したデータの品質の検証・評価を行う。

関連論文リスト

Less is More: Adaptive Coverage for Synthetic Training Data [20.136698279893857]
本研究では,最大カバレッジ問題に基づく新しいサンプリングアルゴリズムを導入し,合成されたデータセットから代表サブセットを選択する。この結果から,この文脈的にサンプリングされたサブセット上での分類器のトレーニングは,データセット全体のトレーニングよりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2025-04-20T06:45:16Z)
Generative Data Augmentation Challenge: Zero-Shot Speech Synthesis for Personalized Speech Enhancement [54.51467153859695]
本稿では、下流タスクのための音声データ、パーソナライズされた音声強調(PSE)を強化するために、ゼロショット音声合成(TTS)システムを要求する新しい課題を提案する。ゼロショットTSモデルによって生成された拡張データの質がPSEモデルの性能にどのように影響するかを検討することを目的とする。
論文参考訳（メタデータ） (2025-01-23T04:27:37Z)
Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-29T04:14:32Z)
Targeted synthetic data generation for tabular data via hardness characterization [0.0]
本稿では,高価値な学習点のみを生成する新しい拡張パイプラインを提案する。シミュレーションデータおよび大規模信用デフォルト予測タスクにおいて、最も困難な点で訓練された合成データ生成装置が、非ターゲットデータ拡張よりも優れていることを示す。
論文参考訳（メタデータ） (2024-10-01T14:54:26Z)
A Comprehensive Survey on Data Augmentation [55.355273602421384]
データ拡張(Data augmentation)は、既存のデータサンプルを操作することによって高品質な人工データを生成する技術である。既存の文献調査では、特定のモダリティデータにのみ焦点が当てられている。本稿では,異なる共通データモダリティのためのデータ拡張技術を含む,より啓蒙的な分類法を提案する。
論文参考訳（メタデータ） (2024-05-15T11:58:08Z)
Benchmarking and Analyzing Generative Data for Visual Recognition [66.55174903469722]
この研究は生成的画像の影響を深く掘り下げ、主に外部データを利用するパラダイムを比較する。我々は、2548のカテゴリを持つ22のデータセットからなるベンチマークである textbfGenBench を考案し、様々な視覚的認識タスクにまたがる生成データを評価した。我々の徹底的なベンチマークと分析は、将来の調査における重要な課題を特定しながら、視覚認識における生成データの約束をスポットライトで示している。
論文参考訳（メタデータ） (2023-07-25T17:59:59Z)
Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。提案手法により,下流タスクの性能が大幅に向上した。
論文参考訳（メタデータ） (2023-03-08T03:56:31Z)
AugGPT: Leveraging ChatGPT for Text Data Augmentation [59.76140039943385]
本稿では,ChatGPT(AugGPT)に基づくテキストデータ拡張手法を提案する。 AugGPTはトレーニングサンプルの各文を、概念的には似ているが意味的に異なる複数のサンプルに言い換える。数ショットの学習テキスト分類タスクの実験結果は、提案したAugGPTアプローチの優れた性能を示している。
論文参考訳（メタデータ） (2023-02-25T06:58:16Z)
Data Augmentation for Intent Classification with Off-the-shelf Large Language Models [13.895236210726202]
市販言語モデルを用いた意図分類のためのラベル付き学習データを生成するためのプロンプトベースアプローチを提案する。提案手法を4つの多目的分類タスクで数ショットで評価する。
論文参考訳（メタデータ） (2022-04-05T03:29:26Z)
Generative Conversational Networks [67.13144697969501]
本稿では,対話エージェントが独自のラベル付き学習データを生成することを学習する,生成会話ネットワーク(Generative Conversational Networks)というフレームワークを提案する。そこで本研究では,シードデータから学習したベースラインモデルに対して,意図検出が平均35%,スロットタグが平均21%向上したことを示す。
論文参考訳（メタデータ） (2021-06-15T23:19:37Z)
Data Weighted Training Strategies for Grammatical Error Correction [8.370770440898454]
文法的誤り訂正(GEC)のトレーニングスケジュールにデルタ-log-perplexityを組み込む方法を示す。得られたデータに基づいて訓練されたモデルは、一般的なGECテストセットで最先端の結果を得る。
論文参考訳（メタデータ） (2020-08-07T03:30:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。