論文の概要: From Collapse to Improvement: Statistical Perspectives on the Evolutionary Dynamics of Iterative Training on Contaminated Sources
- arxiv url: http://arxiv.org/abs/2602.10531v1
- Date: Wed, 11 Feb 2026 05:01:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.480807
- Title: From Collapse to Improvement: Statistical Perspectives on the Evolutionary Dynamics of Iterative Training on Contaminated Sources
- Title(参考訳): 崩壊から改善へ:汚染源の反復訓練の進化的ダイナミクスに関する統計的展望
- Authors: Soham Bakshi, Sunrit Chakraborty,
- Abstract要約: 本稿では,統計的観点からモデル崩壊の問題について考察する。
本研究は,真のターゲットと合成分布の混合から得られた試料の反復的学習について考察する。
真の分布の非トーケン混合重量では、たとえそれが時間の経過とともに崩壊しても、単に汚染に依存しない方法でモデルを訓練すれば、崩壊を避けることができる。
- 参考スコア(独自算出の注目度): 2.8647133890966994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The problem of model collapse has presented new challenges in iterative training of generative models, where such training with synthetic data leads to an overall degradation of performance. This paper looks at the problem from a statistical viewpoint, illustrating that one can actually hope for improvement when models are trained on data contaminated with synthetic samples, as long as there is some amount of fresh information from the true target distribution. In particular, we consider iterative training on samples sourced from a mixture of the true target and synthetic distributions. We analyze the entire iterative evolution in a next-token prediction language model, capturing how the interplay between the mixture weights and the sample size controls the overall long-term performance. With non-trivial mixture weight of the true distribution, even if it decays over time, simply training the model in a contamination-agnostic manner with appropriate sample sizes can avoid collapse and even recover the true target distribution under certain conditions. Simulation studies support our findings and also show that such behavior is more general for other classes of models.
- Abstract(参考訳): モデル崩壊の問題は、生成モデルの反復的なトレーニングにおいて新たな課題をもたらし、このようなデータを用いたトレーニングは、パフォーマンスの全体的な劣化につながる。
本稿では,本研究の課題を統計的視点から考察し,真のターゲット分布からの情報量がある程度ある限り,モデルが合成試料で汚染されたデータに基づいて訓練された場合,実際に改善が期待できることを示す。
特に,本研究は,真のターゲットと合成分布の混合から得られた試料の反復的学習について考察する。
混合重みとサンプルサイズとの相互作用がどのようにして長期的性能を制御するのかを,次世代の予測言語モデルで解析する。
真の分布の非自明な混合重量では、たとえ時間が経過しても、適切なサンプルサイズで汚染に依存しない方法でモデルを訓練するだけで、崩壊を避け、特定の条件下で真のターゲット分布を回復することができる。
シミュレーション研究は、我々の発見を支持し、そのような振る舞いが他のモデルのクラスに対してより一般的であることを示す。
関連論文リスト
- Golden Ratio Weighting Prevents Model Collapse [7.512957145774808]
我々は、実データと合成データを統合するための最適なトレーニング戦略を開発する。
合成データの混合比と重み付け方式が最終モデルの性能に及ぼす影響を特徴付ける。
場合によっては、実データに割り当てられた最適な重みは、黄金比の逆数に対応する。
論文 参考訳(メタデータ) (2025-02-25T10:15:16Z) - Provable Statistical Rates for Consistency Diffusion Models [87.28777947976573]
最先端の性能にもかかわらず、拡散モデルは、多くのステップが伴うため、遅いサンプル生成で知られている。
本稿では, 整合性モデルに関する最初の統計理論に寄与し, 分散不整合最小化問題としてトレーニングを定式化している。
論文 参考訳(メタデータ) (2024-06-23T20:34:18Z) - Ablation Based Counterfactuals [7.481286710933861]
ABC (Ablation Based Counterfactuals) は、モデル再訓練ではなくモデルアブレーションに依存する反ファクト解析を行う手法である。
拡散モデルの集合を用いてこのようなモデルを構築する方法を示す。
次に、このモデルを用いて、完全な対物的景観を列挙することで、トレーニングデータ属性の限界を研究する。
論文 参考訳(メタデータ) (2024-06-12T06:22:51Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Class-Balancing Diffusion Models [57.38599989220613]
クラスバランシング拡散モデル(CBDM)は、分散調整正規化器をソリューションとして訓練する。
提案手法は,CIFAR100/CIFAR100LTデータセットで生成結果をベンチマークし,下流認識タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-30T20:00:14Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。