論文の概要: A novel algorithm can generate data to train machine learning models in
conditions of extreme scarcity of real world data
- arxiv url: http://arxiv.org/abs/2305.00987v1
- Date: Mon, 1 May 2023 16:24:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-03 16:29:01.830379
- Title: A novel algorithm can generate data to train machine learning models in
conditions of extreme scarcity of real world data
- Title(参考訳): 実世界データの極端に不足した条件下で機械学習モデルを訓練するための新しいアルゴリズム
- Authors: Olivier Niel
- Abstract要約: 本研究では,機械学習モデルを学習するための大規模データセットを生成するアルゴリズムを提案する。
実世界のデータのバッチ上でのニューラルネットワークの性能は、生成されたデータセットの適合性のサロゲートと見なされる。
実世界のデータの極端な不足をシミュレートした条件下では、生成されたデータに基づいてトレーニングされた機械学習モデルの平均精度は、希少な実世界のデータでトレーニングされた比較モデルの平均精度よりも著しく高かった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Training machine learning models requires large datasets. However,
collecting, curating, and operating large and complex sets of real world data
poses problems of costs, ethical and legal issues, and data availability. Here
we propose a novel algorithm to generate large artificial datasets to train
machine learning models in conditions of extreme scarcity of real world data.
The algorithm is based on a genetic algorithm, which mutates randomly generated
datasets subsequently used for training a neural network. After training, the
performance of the neural network on a batch of real world data is considered a
surrogate for the fitness of the generated dataset used for its training. As
selection pressure is applied to the population of generated datasets, unfit
individuals are discarded, and the fitness of the fittest individuals increases
through generations. The performance of the data generation algorithm was
measured on the Iris dataset and on the Breast Cancer Wisconsin diagnostic
dataset. In conditions of real world data abundance, mean accuracy of machine
learning models trained on generated data was comparable to mean accuracy of
models trained on real world data (0.956 in both cases on the Iris dataset, p =
0.6996, and 0.9377 versus 0.9472 on the Breast Cancer dataset, p = 0.1189). In
conditions of simulated extreme scarcity of real world data, mean accuracy of
machine learning models trained on generated data was significantly higher than
mean accuracy of comparable models trained on scarce real world data (0.9533
versus 0.9067 on the Iris dataset, p < 0.0001, and 0.8692 versus 0.7701 on the
Breast Cancer dataset, p = 0.0091). In conclusion, this novel algorithm can
generate large artificial datasets to train machine learning models, in
conditions of extreme scarcity of real world data, or when cost or data
sensitivity prevent the collection of large real world datasets.
- Abstract(参考訳): 機械学習モデルのトレーニングには大規模なデータセットが必要である。
しかし、大規模で複雑な実世界のデータの収集、キュレーション、運用は、コスト、倫理的、法的問題、データ可用性の問題を引き起こす。
本稿では,実世界のデータ不足の状況下で機械学習モデルを訓練するための,大規模な人工データセットを生成する新しいアルゴリズムを提案する。
このアルゴリズムは遺伝的アルゴリズムに基づいており、ニューラルネットワークのトレーニングに使用されるランダムに生成されたデータセットをミュートする。
トレーニング後、実世界のデータのバッチ上でのニューラルネットワークのパフォーマンスは、トレーニングに使用される生成されたデータセットの適合性の代理と見なされる。
選択圧力が生成されたデータセットの集団に適用されると、不適格な個人は捨てられ、適格な個人の適合度は世代によって増加する。
データ生成アルゴリズムの性能をIrisデータセットとBreast Cancer Wisconsin診断データセットで測定した。
実世界のデータ量では、生成されたデータに基づいてトレーニングされた機械学習モデルの平均精度は、実世界のデータでトレーニングされたモデルの平均精度に匹敵する(Irisデータセットでは0.956、乳がんデータセットでは0.6996、乳がんデータセットでは0.9377対0.9472)。
実世界のデータの極端な不足をシミュレーションした条件下では、生成されたデータに基づいてトレーニングされた機械学習モデルの平均精度は、希少な実世界のデータでトレーニングされた比較モデルの平均精度よりも有意に高かった(Irisデータセットでは0.9533対0.9067、乳がんデータセットでは0.8692対0.7701)。
結論として,このアルゴリズムは,実世界のデータ不足やコストやデータ感度が大規模な実世界のデータセットの収集を妨げている状況において,機械学習モデルをトレーニングするために,大規模な人工データセットを生成することができる。
関連論文リスト
- Self-Correcting Self-Consuming Loops for Generative Model Training [16.59453827606427]
機械学習モデルは、人間と機械が生成したデータの混合に基づいて、ますます訓練されている。
合成データを用いた表現学習の成功にもかかわらず、合成データを用いた生成モデルトレーニングは「自己消費ループ」を創出する
本稿では,理想化された補正関数を導入することで,自己消費生成モデルの訓練を安定化することを目的とする。
論文 参考訳(メタデータ) (2024-02-11T02:34:42Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Exploring the Effectiveness of Dataset Synthesis: An application of
Apple Detection in Orchards [68.95806641664713]
本研究では,リンゴ樹の合成データセットを生成するための安定拡散2.1-baseの有用性について検討する。
我々は、現実世界のリンゴ検出データセットでリンゴを予測するために、YOLOv5mオブジェクト検出モデルを訓練する。
その結果、実世界の画像でトレーニングされたベースラインモデルと比較して、生成データでトレーニングされたモデルはわずかに性能が劣っていることがわかった。
論文 参考訳(メタデータ) (2023-06-20T09:46:01Z) - Scaling Data-Constrained Language Models [137.17302576977346]
データ制約付きシステムにおける言語モデルのスケーリングについて検討する。
固定された計算予算に対する制約付きデータでは、反復するデータの最大4つのエポックなトレーニングは、ユニークなデータに比べて損失に対する無視可能な変化をもたらす。
本稿では,繰り返しトークンと過剰パラメータの値の減少を考慮に入れた計算最適性のスケーリング法則を提案し,実証的に検証する。
論文 参考訳(メタデータ) (2023-05-25T17:18:55Z) - Diffusion Dataset Generation: Towards Closing the Sim2Real Gap for
Pedestrian Detection [0.11470070927586014]
本稿では,歩行者検出作業において,シミュリアルなギャップを埋めるための新しい合成データ生成法を提案する。
提案手法は拡散型アーキテクチャを用いて実世界の分布を学習し,一度学習するとデータセットを生成する。
本研究では,実世界データにおける歩行者検出モデルにおいて,生成データとシミュレーションデータの組み合わせによるトレーニングにより,平均精度が27.3%向上することを示す。
論文 参考訳(メタデータ) (2023-05-16T12:33:51Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Reducing the Amount of Real World Data for Object Detector Training with
Synthetic Data [1.0312968200748116]
合成データと実世界のデータの混合データセットを使用することで、実世界のデータがどれだけ節約できるかを定量化する。
検出性能を犠牲にすることなく,実世界のデータの必要性を最大70%削減できることがわかった。
論文 参考訳(メタデータ) (2022-01-31T08:13:12Z) - MLReal: Bridging the gap between training on synthetic data and real
data applications in machine learning [1.9852463786440129]
本稿では,実際のデータ特徴を持つ合成データの教師付きトレーニングを強化するための新しいアプローチについて述べる。
トレーニング段階では、入力データは合成ドメインから、自動相関データは実ドメインからである。
推論/アプリケーション段階では、入力データは実サブセットドメインからであり、自己相関区間の平均は合成データサブセットドメインからである。
論文 参考訳(メタデータ) (2021-09-11T14:43:34Z) - STAN: Synthetic Network Traffic Generation with Generative Neural Models [10.54843182184416]
本稿では,現実的な合成ネットワークトラフィックデータセットを生成するためのSTAN(Synthetic Network Traffic Generation with Autoregressive Neural Model)を提案する。
私たちの新しいニューラルアーキテクチャは、常に属性間の時間的依存関係と依存の両方をキャプチャします。
我々は、シミュレーションデータセットと実ネットワークトラフィックデータセットの両方で、STANの性能を、データの品質の観点から評価する。
論文 参考訳(メタデータ) (2020-09-27T04:20:02Z) - AutoSimulate: (Quickly) Learning Synthetic Data Generation [70.82315853981838]
目的の新たな微分可能近似に基づく最適な合成データ生成法を提案する。
提案手法は,学習データ生成の高速化(最大50Times$)と,実世界のテストデータセットの精度向上(+8.7%$)を実現している。
論文 参考訳(メタデータ) (2020-08-16T11:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。