論文の概要: Using GPT-2 to Create Synthetic Data to Improve the Prediction
Performance of NLP Machine Learning Classification Models
- arxiv url: http://arxiv.org/abs/2104.10658v1
- Date: Fri, 2 Apr 2021 20:20:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 19:43:03.313467
- Title: Using GPT-2 to Create Synthetic Data to Improve the Prediction
Performance of NLP Machine Learning Classification Models
- Title(参考訳): GPT-2による合成データ作成によるNLP機械学習分類モデルの予測性能向上
- Authors: Dewayne Whitfield
- Abstract要約: 機械学習モデルの性能を高めるために合成データを利用するのが一般的になっている。
Yelpのピザレストランレビューデータセットを使って、トレーニング済みのGPT-2 Transformer Modelを微調整して、合成ピザレビューデータを生成しました。
そして、この合成データを元の本物のデータと組み合わせて、新しい共同データセットを作成しました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classification Models use input data to predict the likelihood that the
subsequent input data will fall into predetermined categories. To perform
effective classifications, these models require large datasets for training. It
is becoming common practice to utilize synthetic data to boost the performance
of Machine Learning Models. It is reported that Shell is using synthetic data
to build models to detect problems that rarely occur; for example Shell created
synthetic data to help models to identify deteriorating oil lines. It is common
practice for Machine Learning Practitioners to generate synthetic data by
rotating, flipping, and cropping images to increase the volume of image data to
train Convolutional Neural Networks. The purpose of this paper is to explore
creating and utilizing synthetic NLP data to improve the performance of Natural
Language Processing Machine Learning Classification Models. In this paper I
used a Yelp pizza restaurant reviews dataset and transfer learning to fine-tune
a pre-trained GPT-2 Transformer Model to generate synthetic pizza reviews data.
I then combined this synthetic data with the original genuine data to create a
new joint dataset. The new combined model significantly outperformed the
original model in accuracy and precision.
- Abstract(参考訳): 分類モデルは入力データを使用して、その後の入力データが所定のカテゴリに該当する可能性を予測する。
効果的な分類を行うために、これらのモデルはトレーニングのために大きなデータセットを必要とする。
機械学習モデルの性能を高めるために合成データを利用するのが一般的になりつつある。
Shellは合成データを使用して、稀に発生する問題を検出するモデルを構築していると報告されている。
畳み込みニューラルネットワークを訓練するために、画像の回転、反転、切り抜きによって合成データを生成することは、機械学習実践者にとって一般的である。
本研究の目的は,自然言語処理機械学習分類モデルの性能向上のために,合成NLPデータの作成と活用を検討することである。
本稿では,Yelpピザレストランレビューデータセットを用いて,事前学習したGPT-2トランスフォーマーモデルを微調整し,合成ピザレビューデータを生成する。
そして、この合成データを元の本物のデータと組み合わせて、新しいジョイントデータセットを作りました。
新しい結合モデルは、精度と精度において元のモデルを大きく上回った。
関連論文リスト
- Self-Correcting Self-Consuming Loops for Generative Model Training [16.59453827606427]
機械学習モデルは、人間と機械が生成したデータの混合に基づいて、ますます訓練されている。
合成データを用いた表現学習の成功にもかかわらず、合成データを用いた生成モデルトレーニングは「自己消費ループ」を創出する
本稿では,理想化された補正関数を導入することで,自己消費生成モデルの訓練を安定化することを目的とする。
論文 参考訳(メタデータ) (2024-02-11T02:34:42Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Post-training Model Quantization Using GANs for Synthetic Data
Generation [57.40733249681334]
量子化法における実データを用いたキャリブレーションの代用として合成データを用いた場合について検討する。
本稿では,StyleGAN2-ADAが生成したデータと事前学習したDiStyleGANを用いて定量化したモデルの性能と,実データを用いた量子化とフラクタル画像に基づく代替データ生成手法との比較を行った。
論文 参考訳(メタデータ) (2023-05-10T11:10:09Z) - A New Benchmark: On the Utility of Synthetic Data with Blender for Bare
Supervised Learning and Downstream Domain Adaptation [42.2398858786125]
コンピュータビジョンにおけるディープラーニングは、大規模ラベル付きトレーニングデータの価格で大きな成功を収めた。
制御不能なデータ収集プロセスは、望ましくない重複が存在する可能性のある非IIDトレーニングおよびテストデータを生成する。
これを回避するために、ドメインランダム化による3Dレンダリングによる合成データを生成する方法がある。
論文 参考訳(メタデータ) (2023-03-16T09:03:52Z) - Is synthetic data from generative models ready for image recognition? [69.42645602062024]
本研究では,最新のテキスト・画像生成モデルから生成した合成画像が,画像認識タスクにどのように利用できるかを検討した。
本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。
論文 参考訳(メタデータ) (2022-10-14T06:54:24Z) - FedSynth: Gradient Compression via Synthetic Data in Federated Learning [14.87215762562876]
モデル更新を送信するのではなく,各クライアントが学習し,軽量な合成データセットを送信する,上流通信のための新しい手法を提案する。
我々の手法は,3つの共通学習ベンチマークデータセットのすべてにおいて,ランダムマスキングベースラインに匹敵する/劣ることがわかった。
論文 参考訳(メタデータ) (2022-04-04T06:47:20Z) - TUTOR: Training Neural Networks Using Decision Rules as Model Priors [4.0880509203447595]
ディープニューラルネットワーク(DNN)は一般的に、トレーニングに大量のデータと計算資源を必要とする。
利用可能な限られたデータとメモリ/計算要求を低減した正確なDNNモデルを合成するためのTUTORフレームワークを提案する。
TUTORは、完全に接続されたDNNと比較して、データの必要性を平均5.9倍に減らし、精度を3.4%改善し、パラメータ(fFLOP)の数を4.7倍(4.3倍)削減することを示した。
論文 参考訳(メタデータ) (2020-10-12T03:25:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。