論文の概要: Self-Correcting Self-Consuming Loops for Generative Model Training
- arxiv url: http://arxiv.org/abs/2402.07087v3
- Date: Mon, 10 Jun 2024 14:22:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 01:43:22.594795
- Title: Self-Correcting Self-Consuming Loops for Generative Model Training
- Title(参考訳): 生成モデル学習のための自己補正自己消費ループ
- Authors: Nate Gillman, Michael Freeman, Daksh Aggarwal, Chia-Hong Hsu, Calvin Luo, Yonglong Tian, Chen Sun,
- Abstract要約: 機械学習モデルは、人間と機械が生成したデータの混合に基づいて、ますます訓練されている。
合成データを用いた表現学習の成功にもかかわらず、合成データを用いた生成モデルトレーニングは「自己消費ループ」を創出する
本稿では,理想化された補正関数を導入することで,自己消費生成モデルの訓練を安定化することを目的とする。
- 参考スコア(独自算出の注目度): 16.59453827606427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As synthetic data becomes higher quality and proliferates on the internet, machine learning models are increasingly trained on a mix of human- and machine-generated data. Despite the successful stories of using synthetic data for representation learning, using synthetic data for generative model training creates "self-consuming loops" which may lead to training instability or even collapse, unless certain conditions are met. Our paper aims to stabilize self-consuming generative model training. Our theoretical results demonstrate that by introducing an idealized correction function, which maps a data point to be more likely under the true data distribution, self-consuming loops can be made exponentially more stable. We then propose self-correction functions, which rely on expert knowledge (e.g. the laws of physics programmed in a simulator), and aim to approximate the idealized corrector automatically and at scale. We empirically validate the effectiveness of self-correcting self-consuming loops on the challenging human motion synthesis task, and observe that it successfully avoids model collapse, even when the ratio of synthetic data to real data is as high as 100%.
- Abstract(参考訳): 合成データがより高品質になり、インターネット上で増殖するにつれて、機械学習モデルは、人間と機械が生成したデータの混合に基づいて、ますます訓練されている。
表現学習に合成データを使うことが成功したにもかかわらず、生成モデルトレーニングに合成データを使用することで、一定の条件が満たさない限り、トレーニングの不安定性や崩壊につながる可能性のある「自己消費ループ」が生成される。
本稿は,自己消費型生成モデルトレーニングの安定化を目的とする。
我々の理論的結果は、データ点を真のデータ分布下でより高い確率でマッピングする理想化された補正関数を導入することにより、自己消費ループを指数関数的に安定させることができることを示している。
次に、専門家の知識(シミュレータでプログラムされた物理の法則など)に依存した自己補正関数を提案し、理想化された修正器を自動かつ大規模に近似することを目指す。
本研究では,人間の動作合成作業における自己修正自己消費ループの有効性を実証的に検証し,実データに対する合成データの比率が100%である場合でも,モデル崩壊の回避に成功していることを示す。
関連論文リスト
- Self-Consuming Generative Models with Curated Data Provably Optimize Human Preferences [20.629333587044012]
本研究では,データキュレーションが生成モデルの反復的再学習に与える影響について検討する。
報奨モデルに従ってデータをキュレートすると、反復的再訓練手順の期待報酬が最大になることを示す。
論文 参考訳(メタデータ) (2024-06-12T21:28:28Z) - Beyond Model Collapse: Scaling Up with Synthesized Data Requires Reinforcement [11.6055501181235]
モデル崩壊防止のための合成データに対するフィードバックの利用について検討する。
フィードバック強化された合成データからのトレーニングは、誤った予測を打つか、いくつかの推測のベストを選択することによって、モデル崩壊を防止できることが示される。
論文 参考訳(メタデータ) (2024-06-11T17:46:16Z) - Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data [49.73114504515852]
各世代の合成データによって元の実データを置き換えることは、モデル崩壊の傾向にあることを示す。
生成した実データと連続する合成データの蓄積は,モデル崩壊を回避することを実証する。
論文 参考訳(メタデータ) (2024-04-01T18:31:24Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Real-to-Sim: Predicting Residual Errors of Robotic Systems with Sparse
Data using a Learning-based Unscented Kalman Filter [65.93205328894608]
我々は,動的・シミュレータモデルと実ロボット間の残差を学習する。
学習した残差誤差により、動的モデル、シミュレーション、および実際のハードウェア間の現実的ギャップをさらに埋めることができることを示す。
論文 参考訳(メタデータ) (2022-09-07T15:15:12Z) - Using GPT-2 to Create Synthetic Data to Improve the Prediction
Performance of NLP Machine Learning Classification Models [0.0]
機械学習モデルの性能を高めるために合成データを利用するのが一般的になっている。
Yelpのピザレストランレビューデータセットを使って、トレーニング済みのGPT-2 Transformer Modelを微調整して、合成ピザレビューデータを生成しました。
そして、この合成データを元の本物のデータと組み合わせて、新しい共同データセットを作成しました。
論文 参考訳(メタデータ) (2021-04-02T20:20:42Z) - Synthesizing Irreproducibility in Deep Networks [2.28438857884398]
現代のディープネットワークは非生産性に苦しむ(非決定性または不特定化とも呼ばれる)
単一の非線形性や非常に単純なデータやモデルであっても、不再現性が生じることを示す。
モデルの複雑さと非線形性の選択は、深いモデルを再現不能にする上で重要な役割を果たす。
論文 参考訳(メタデータ) (2021-02-21T21:51:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。