Fugu-MT 論文翻訳(概要): Using GPT-2 to Create Synthetic Data to Improve the Prediction Performance of NLP Machine Learning Classification Models

論文の概要: Using GPT-2 to Create Synthetic Data to Improve the Prediction Performance of NLP Machine Learning Classification Models

arxiv url: http://arxiv.org/abs/2104.10658v1
Date: Fri, 2 Apr 2021 20:20:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-05 19:43:03.313467
Title: Using GPT-2 to Create Synthetic Data to Improve the Prediction Performance of NLP Machine Learning Classification Models
Title（参考訳）: GPT-2による合成データ作成によるNLP機械学習分類モデルの予測性能向上
Authors: Dewayne Whitfield
Abstract要約: 機械学習モデルの性能を高めるために合成データを利用するのが一般的になっている。 Yelpのピザレストランレビューデータセットを使って、トレーニング済みのGPT-2 Transformer Modelを微調整して、合成ピザレビューデータを生成しました。そして、この合成データを元の本物のデータと組み合わせて、新しい共同データセットを作成しました。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Classification Models use input data to predict the likelihood that the subsequent input data will fall into predetermined categories. To perform effective classifications, these models require large datasets for training. It is becoming common practice to utilize synthetic data to boost the performance of Machine Learning Models. It is reported that Shell is using synthetic data to build models to detect problems that rarely occur; for example Shell created synthetic data to help models to identify deteriorating oil lines. It is common practice for Machine Learning Practitioners to generate synthetic data by rotating, flipping, and cropping images to increase the volume of image data to train Convolutional Neural Networks. The purpose of this paper is to explore creating and utilizing synthetic NLP data to improve the performance of Natural Language Processing Machine Learning Classification Models. In this paper I used a Yelp pizza restaurant reviews dataset and transfer learning to fine-tune a pre-trained GPT-2 Transformer Model to generate synthetic pizza reviews data. I then combined this synthetic data with the original genuine data to create a new joint dataset. The new combined model significantly outperformed the original model in accuracy and precision.
Abstract（参考訳）: 分類モデルは入力データを使用して、その後の入力データが所定のカテゴリに該当する可能性を予測する。効果的な分類を行うために、これらのモデルはトレーニングのために大きなデータセットを必要とする。機械学習モデルの性能を高めるために合成データを利用するのが一般的になりつつある。 Shellは合成データを使用して、稀に発生する問題を検出するモデルを構築していると報告されている。畳み込みニューラルネットワークを訓練するために、画像の回転、反転、切り抜きによって合成データを生成することは、機械学習実践者にとって一般的である。本研究の目的は,自然言語処理機械学習分類モデルの性能向上のために,合成NLPデータの作成と活用を検討することである。本稿では,Yelpピザレストランレビューデータセットを用いて,事前学習したGPT-2トランスフォーマーモデルを微調整し,合成ピザレビューデータを生成する。そして、この合成データを元の本物のデータと組み合わせて、新しいジョイントデータセットを作りました。新しい結合モデルは、精度と精度において元のモデルを大きく上回った。

関連論文リスト

Meta-Learning and Synthetic Data for Automated Pretraining and Finetuning [2.657867981416885]
機械学習(ML)における事前訓練モデルの増加は、実践者にとって大きな課題となる。モデルがスケールするにつれて、実世界のデータへの依存度の増加は、トレーニングのボトルネックとなり、より効率的にデータを活用する必要がある。この論文はメタラーニングを採用し、機械学習をディープラーニング領域に拡張する。
論文参考訳（メタデータ） (2025-06-11T12:48:45Z)
Point Cloud Segmentation of Agricultural Vehicles using 3D Gaussian Splatting [12.323236593352698]
この研究は、現実的な合成データを生成するための新しいパイプラインを導入することを目的としている。我々はジェネリックモデルではなく、複数の農業車両の3D資産を生成する。我々は、合成データのみをトレーニングし、検証することにより、PointNet++、Point Transformer V3、OACNNなどのセグメンテーションモデルに対する合成データの影響を評価する。
論文参考訳（メタデータ） (2025-06-05T13:19:27Z)
Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文参考訳（メタデータ） (2025-03-25T11:07:12Z)
How to Synthesize Text Data without Model Collapse? [37.219627817995054]
合成データのモデル崩壊は、自己生成データに対する反復的なトレーニングが徐々に性能を低下させることを示している。半合成データを得るために,人為的データに対するトークン編集を提案する。
論文参考訳（メタデータ） (2024-12-19T09:43:39Z)
Little Giants: Synthesizing High-Quality Embedding Data at Scale [71.352883755806]
SPEEDは,オープンソースの小型モデルと協調して大規模な埋め込みデータを効率的に生成するフレームワークである。 SPEEDはGPT API呼び出しの1/10未満しか使用せず、両者が合成データのみに基づいてトレーニングされている場合、最先端の埋め込みモデルE5_mistralよりも優れている。
論文参考訳（メタデータ） (2024-10-24T10:47:30Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
Machine Unlearning using a Multi-GAN based Model [0.0]
本稿では,GAN(Generative Adversarial Network)をベースとした新しい機械学習手法を提案する。提案手法は,GANモデルを用いたデータ再構成と,学習済みモデルを微調整する2つのフェーズから構成される。
論文参考訳（メタデータ） (2024-07-26T02:28:32Z)
Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。このようなモデルは大きい傾向があり、訓練データの総量を必要とする。人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文参考訳（メタデータ） (2023-11-02T01:51:43Z)
Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文参考訳（メタデータ） (2023-10-20T17:14:25Z)
Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文参考訳（メタデータ） (2023-05-16T07:30:29Z)
A New Benchmark: On the Utility of Synthetic Data with Blender for Bare Supervised Learning and Downstream Domain Adaptation [42.2398858786125]
コンピュータビジョンにおけるディープラーニングは、大規模ラベル付きトレーニングデータの価格で大きな成功を収めた。制御不能なデータ収集プロセスは、望ましくない重複が存在する可能性のある非IIDトレーニングおよびテストデータを生成する。これを回避するために、ドメインランダム化による3Dレンダリングによる合成データを生成する方法がある。
論文参考訳（メタデータ） (2023-03-16T09:03:52Z)
Is synthetic data from generative models ready for image recognition? [69.42645602062024]
本研究では,最新のテキスト・画像生成モデルから生成した合成画像が,画像認識タスクにどのように利用できるかを検討した。本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。
論文参考訳（メタデータ） (2022-10-14T06:54:24Z)
FedSynth: Gradient Compression via Synthetic Data in Federated Learning [14.87215762562876]
モデル更新を送信するのではなく,各クライアントが学習し,軽量な合成データセットを送信する,上流通信のための新しい手法を提案する。我々の手法は,3つの共通学習ベンチマークデータセットのすべてにおいて,ランダムマスキングベースラインに匹敵する/劣ることがわかった。
論文参考訳（メタデータ） (2022-04-04T06:47:20Z)
TUTOR: Training Neural Networks Using Decision Rules as Model Priors [4.0880509203447595]
ディープニューラルネットワーク(DNN)は一般的に、トレーニングに大量のデータと計算資源を必要とする。利用可能な限られたデータとメモリ/計算要求を低減した正確なDNNモデルを合成するためのTUTORフレームワークを提案する。 TUTORは、完全に接続されたDNNと比較して、データの必要性を平均5.9倍に減らし、精度を3.4%改善し、パラメータ(fFLOP)の数を4.7倍(4.3倍)削減することを示した。
論文参考訳（メタデータ） (2020-10-12T03:25:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。