論文の概要: Self-Correcting Self-Consuming Loops for Generative Model Training
- arxiv url: http://arxiv.org/abs/2402.07087v1
- Date: Sun, 11 Feb 2024 02:34:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 17:46:24.042825
- Title: Self-Correcting Self-Consuming Loops for Generative Model Training
- Title(参考訳): 生成モデル学習のための自己補正自己消費ループ
- Authors: Nate Gillman, Michael Freeman, Daksh Aggarwal, Chia-Hong Hsu, Calvin
Luo, Yonglong Tian, Chen Sun
- Abstract要約: 機械学習モデルは、人間と機械が生成したデータの混合に基づいて、ますます訓練されている。
合成データを用いた表現学習の成功にもかかわらず、合成データを用いた生成モデルトレーニングは「自己消費ループ」を創出する
本稿では,理想化された補正関数を導入することで,自己消費生成モデルの訓練を安定化することを目的とする。
- 参考スコア(独自算出の注目度): 17.426683356697247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As synthetic data becomes higher quality and proliferates on the internet,
machine learning models are increasingly trained on a mix of human- and
machine-generated data. Despite the successful stories of using synthetic data
for representation learning, using synthetic data for generative model training
creates "self-consuming loops" which may lead to training instability or even
collapse, unless certain conditions are met. Our paper aims to stabilize
self-consuming generative model training. Our theoretical results demonstrate
that by introducing an idealized correction function, which maps a data point
to be more likely under the true data distribution, self-consuming loops can be
made exponentially more stable. We then propose self-correction functions,
which rely on expert knowledge (e.g. the laws of physics programmed in a
simulator), and aim to approximate the idealized corrector automatically and at
scale. We empirically validate the effectiveness of self-correcting
self-consuming loops on the challenging human motion synthesis task, and
observe that it successfully avoids model collapse, even when the ratio of
synthetic data to real data is as high as 100%.
- Abstract(参考訳): 合成データがより高品質になり、インターネット上で増殖するにつれて、機械学習モデルは、人間と機械が生成したデータの混合に基づいてますます訓練されている。
表現学習に合成データを使うことは成功したが、生成モデルのトレーニングに合成データを使用することで「自己消費ループ」が作成され、特定の条件が満たされない限り、トレーニング不安定や崩壊につながる可能性がある。
本稿は,自己消費型生成モデルトレーニングの安定化を目的とする。
理論的な結果は、真のデータ分布の下でデータポイントをより可能性の高い理想化補正関数を導入することにより、自己消費ループを指数関数的に安定させることができることを示した。
次に、専門家の知識(例えばシミュレータでプログラムされた物理法則)に依存する自己補正関数を提案し、理想化補正器を自動的にかつ大規模に近似することを目指す。
本研究では,人間の動作合成作業における自己修正自己消費ループの有効性を実証的に検証し,実データに対する合成データの比率が100%である場合でも,モデル崩壊を回避できることを示した。
関連論文リスト
- Enhancing Object Detection Accuracy in Autonomous Vehicles Using Synthetic Data [0.8267034114134277]
機械学習モデルの性能は、トレーニングデータセットの性質とサイズに依存する。
正確で信頼性の高い機械学習モデルを構築するためには、高品質、多様性、関連性、代表的トレーニングデータが不可欠である。
十分に設計された合成データは、機械学習アルゴリズムの性能を向上させることができると仮定されている。
論文 参考訳(メタデータ) (2024-11-23T16:38:02Z) - Self-Improving Diffusion Models with Synthetic Data [12.597035060380001]
シンセティックデータを用いた自己IM拡散モデル(SIMS)は、拡散モデルのための新しい訓練概念である。
SIMSは自己合成データを使用して生成プロセス中に負のガイダンスを提供する。
MADを使わずに、自己生成合成データに対して反復的に訓練できる、最初の予防的生成AIアルゴリズムである。
論文 参考訳(メタデータ) (2024-08-29T08:12:18Z) - Self-Consuming Generative Models with Curated Data Provably Optimize Human Preferences [20.629333587044012]
本研究では,データキュレーションが生成モデルの反復的再学習に与える影響について検討する。
報奨モデルに従ってデータをキュレートすると、反復的再訓練手順の期待報酬が最大になることを示す。
論文 参考訳(メタデータ) (2024-06-12T21:28:28Z) - Beyond Model Collapse: Scaling Up with Synthesized Data Requires Verification [11.6055501181235]
モデル崩壊防止のための合成データに対する検証手法について検討する。
検証器は、たとえ不完全なものであっても、モデル崩壊を防ぐために実際に活用できることが示される。
論文 参考訳(メタデータ) (2024-06-11T17:46:16Z) - Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data [49.73114504515852]
各世代の合成データによって元の実データを置き換えることは、モデル崩壊の傾向にあることを示す。
生成した実データと連続する合成データの蓄積は,モデル崩壊を回避することを実証する。
論文 参考訳(メタデータ) (2024-04-01T18:31:24Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Real-to-Sim: Predicting Residual Errors of Robotic Systems with Sparse
Data using a Learning-based Unscented Kalman Filter [65.93205328894608]
我々は,動的・シミュレータモデルと実ロボット間の残差を学習する。
学習した残差誤差により、動的モデル、シミュレーション、および実際のハードウェア間の現実的ギャップをさらに埋めることができることを示す。
論文 参考訳(メタデータ) (2022-09-07T15:15:12Z) - Synthesizing Irreproducibility in Deep Networks [2.28438857884398]
現代のディープネットワークは非生産性に苦しむ(非決定性または不特定化とも呼ばれる)
単一の非線形性や非常に単純なデータやモデルであっても、不再現性が生じることを示す。
モデルの複雑さと非線形性の選択は、深いモデルを再現不能にする上で重要な役割を果たす。
論文 参考訳(メタデータ) (2021-02-21T21:51:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。