論文の概要: Golden Ratio Mixing of Real and Synthetic Data for Stabilizing Generative Model Training
- arxiv url: http://arxiv.org/abs/2502.18049v1
- Date: Tue, 25 Feb 2025 10:15:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:23:13.562221
- Title: Golden Ratio Mixing of Real and Synthetic Data for Stabilizing Generative Model Training
- Title(参考訳): 生成モデルトレーニングの安定化のための実データと合成データの黄金比混合
- Authors: Hengzhi He, Shirong Xu, Guang Cheng,
- Abstract要約: 近年の研究では、モデル崩壊として知られる生成モデルトレーニングにおいて、以前のモデルによって生成されたデータに基づいてトレーニングされたモデルが深刻な性能劣化を示す現象が特定されている。
本稿では, この現象を, 新たに収集した実データと前回の学習段階からの合成データの組み合わせに基づいて, 生成モデルを反復的に訓練する, 新たな枠組み内で理論的に検討する。
- 参考スコア(独自算出の注目度): 9.087950471621653
- License:
- Abstract: Recent studies identified an intriguing phenomenon in recursive generative model training known as model collapse, where models trained on data generated by previous models exhibit severe performance degradation. Addressing this issue and developing more effective training strategies have become central challenges in generative model research. In this paper, we investigate this phenomenon theoretically within a novel framework, where generative models are iteratively trained on a combination of newly collected real data and synthetic data from the previous training step. To develop an optimal training strategy for integrating real and synthetic data, we evaluate the performance of a weighted training scheme in various scenarios, including Gaussian distribution estimation and linear regression. We theoretically characterize the impact of the mixing proportion and weighting scheme of synthetic data on the final model's performance. Our key finding is that, across different settings, the optimal weighting scheme under different proportions of synthetic data asymptotically follows a unified expression, revealing a fundamental trade-off between leveraging synthetic data and generative model performance. Notably, in some cases, the optimal weight assigned to real data corresponds precisely to the reciprocal of the golden ratio. Finally, we validate our theoretical results on extensive simulated datasets and a real tabular dataset.
- Abstract(参考訳): 近年の研究では、モデル崩壊として知られる再帰的生成モデルトレーニングにおける興味深い現象が特定されている。
この問題に対処し、より効果的なトレーニング戦略を開発することは、生成モデル研究における中心的な課題となっている。
本稿では,新たに収集した実データと合成データを組み合わせて生成モデルを反復的に学習する新たな枠組みの中で,この現象を理論的に検討する。
実データと合成データを統合するための最適トレーニング戦略を開発するため,ガウス分布推定や線形回帰を含む様々なシナリオにおいて重み付きトレーニングスキームの性能を評価する。
合成データの混合比と重み付け方式が最終モデルの性能に及ぼす影響を理論的に評価した。
我々の重要な発見は、異なる設定において、合成データの異なる割合での最適な重み付け方式は、漸近的に統一された表現に従い、合成データの活用と生成モデルの性能の基本的なトレードオフを明らかにすることである。
特に、いくつかのケースでは、実データに割り当てられた最適な重みは、金比の逆数と正確に一致する。
最後に,広範にシミュレーションされたデータセットと実際の表付きデータセットの理論的結果を検証した。
関連論文リスト
- zGAN: An Outlier-focused Generative Adversarial Network For Realistic Synthetic Data Generation [0.0]
ブラックスワン」は古典的な機械学習モデルの性能に挑戦している。
本稿では、外部特性を持つ合成データを生成する目的で開発されたzGANモデルアーキテクチャの概要について述べる。
リアルな合成データ生成の有望な結果と、モデル性能のアップリフト能力を示す。
論文 参考訳(メタデータ) (2024-10-28T07:55:11Z) - On conditional diffusion models for PDE simulations [53.01911265639582]
スパース観測の予測と同化のためのスコアベース拡散モデルについて検討した。
本稿では,予測性能を大幅に向上させる自動回帰サンプリング手法を提案する。
また,条件付きスコアベースモデルに対する新たなトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-10-21T18:31:04Z) - Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - Private Synthetic Data Meets Ensemble Learning [15.425653946755025]
機械学習モデルが合成データに基づいてトレーニングされ、実際のデータにデプロイされると、しばしばパフォーマンス低下が発生する。
実データを用いた場合のパフォーマンス向上を目標として,下流モデルのトレーニングのための新たなアンサンブル戦略を導入する。
論文 参考訳(メタデータ) (2023-10-15T04:24:42Z) - On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - The Big Data Myth: Using Diffusion Models for Dataset Generation to
Train Deep Detection Models [0.15469452301122172]
本研究では, 微調整型安定拡散モデルによる合成データセット生成のための枠組みを提案する。
本研究の結果から, 合成データを用いた物体検出モデルは, ベースラインモデルと同じような性能を示すことが明らかとなった。
論文 参考訳(メタデータ) (2023-06-16T10:48:52Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。