論文の概要: A Probabilistic Perspective on Model Collapse
- arxiv url: http://arxiv.org/abs/2505.13947v1
- Date: Tue, 20 May 2025 05:25:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.762961
- Title: A Probabilistic Perspective on Model Collapse
- Title(参考訳): モデル崩壊の確率論的展望
- Authors: Shirong Xu, Hengzhi He, Guang Cheng,
- Abstract要約: 本研究の目的は,モデル崩壊の発生条件と,その緩和方法である。
軽度条件下では,モデルの崩壊を防止するために,各トレーニングステップにおけるサンプルサイズを徐々に増加させる必要があることを厳格に示す。
また, 合成データを用いた学習が, 実データのみを用いた学習よりも優れるモデルを生み出す可能性についても検討した。
- 参考スコア(独自算出の注目度): 9.087950471621653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, model collapse has become a critical issue in language model training, making it essential to understand the underlying mechanisms driving this phenomenon. In this paper, we investigate recursive parametric model training from a probabilistic perspective, aiming to characterize the conditions under which model collapse occurs and, crucially, how it can be mitigated. We conceptualize the recursive training process as a random walk of the model estimate, highlighting how the sample size influences the step size and how the estimation procedure determines the direction and potential bias of the random walk. Under mild conditions, we rigorously show that progressively increasing the sample size at each training step is necessary to prevent model collapse. In particular, when the estimation is unbiased, the required growth rate follows a superlinear pattern. This rate needs to be accelerated even further in the presence of substantial estimation bias. Building on this probabilistic framework, we also investigate the probability that recursive training on synthetic data yields models that outperform those trained solely on real data. Moreover, we extend these results to general parametric model family in an asymptotic regime. Finally, we validate our theoretical results through extensive simulations and a real-world dataset.
- Abstract(参考訳): 近年、モデル崩壊は言語モデルトレーニングにおいて重要な問題となっており、この現象を誘発するメカニズムを理解することが不可欠である。
本稿では,モデル崩壊の発生条件を特徴付けることを目的として,確率論的観点から再帰的パラメトリックモデルトレーニングについて検討する。
我々は,再帰学習過程をモデル推定のランダムウォークとして概念化し,サンプルサイズがステップサイズにどのように影響するか,推定手順がランダムウォークの方向と潜在的なバイアスを決定するかを明らかにする。
軽度条件下では,モデルの崩壊を防止するために,各トレーニングステップにおけるサンプルサイズを徐々に増加させる必要があることを厳格に示す。
特に、推定が偏りのない場合、必要な成長速度は超線形パターンに従う。
この速度は、実質的な推定バイアスの存在下でさらに加速する必要がある。
この確率的枠組みに基づいて、合成データに対する再帰的トレーニングが、実データのみにトレーニングされたモデルを上回る結果をもたらす可能性についても検討する。
さらに、これらの結果は、漸近的な状態にある一般的なパラメトリックモデルファミリに拡張する。
最後に,広範囲なシミュレーションと実世界のデータセットを用いて理論的結果を検証した。
関連論文リスト
- A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops [55.07063067759609]
高品質なデータは大規模な生成モデルのトレーニングには不可欠だが、オンラインで利用可能な実際のデータの膨大な蓄積はほとんど枯渇している。
モデルは、さらなるトレーニングのために独自のデータを生成し、自己消費訓練ループ(STL)を形成する。
一部のモデルは劣化または崩壊するが、他のモデルはこれらの失敗をうまく回避し、理論的な理解にかなりのギャップを残している。
論文 参考訳(メタデータ) (2025-02-26T06:18:13Z) - On conditional diffusion models for PDE simulations [53.01911265639582]
スパース観測の予測と同化のためのスコアベース拡散モデルについて検討した。
本稿では,予測性能を大幅に向上させる自動回帰サンプリング手法を提案する。
また,条件付きスコアベースモデルに対する新たなトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-10-21T18:31:04Z) - Towards Learning Stochastic Population Models by Gradient Descent [0.0]
パラメータと構造を同時に推定することで,最適化手法に大きな課題が生じることを示す。
モデルの正確な推定を実証するが、擬似的、解釈可能なモデルの推論を強制することは、難易度を劇的に高める。
論文 参考訳(メタデータ) (2024-04-10T14:38:58Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Neural Likelihood Approximation for Integer Valued Time Series Data [0.0]
我々は、基礎となるモデルの無条件シミュレーションを用いて訓練できるニューラルな可能性近似を構築した。
本手法は,多くの生態学的および疫学的モデルを用いて推定を行うことにより実証する。
論文 参考訳(メタデータ) (2023-10-19T07:51:39Z) - Last layer state space model for representation learning and uncertainty
quantification [0.0]
本稿では,低次元状態を学ぶための表現学習段階と,不確実性推定のための状態空間モデルという2つのステップで分類・回帰タスクを分解することを提案する。
我々は、状態空間をベースとした最後の層を追加することで、既存のトレーニング済みニューラルネットワーク上に予測分布を推定する方法を実証する。
我々のモデルは、未知あるいは不利用可能な変数のため、ノイズの多いデータ構造を考慮し、予測に対して信頼区間を提供することができる。
論文 参考訳(メタデータ) (2023-07-04T08:37:37Z) - Plan To Predict: Learning an Uncertainty-Foreseeing Model for
Model-Based Reinforcement Learning [32.24146877835396]
本稿では,モデルロールアウト処理を逐次決定問題として扱うフレームワークであるemphPlan To Predict (P2P)を提案する。
P2Pは、いくつかの課題のあるベンチマークタスクにおいて最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-01-20T10:17:22Z) - Probabilistic Modeling for Human Mesh Recovery [73.11532990173441]
本稿では,2次元の証拠から3次元の人体復元の問題に焦点を当てた。
我々は,この問題を,入力から3Dポーズの分布へのマッピング学習として再考した。
論文 参考訳(メタデータ) (2021-08-26T17:55:11Z) - Learning Interpretable Deep State Space Model for Probabilistic Time
Series Forecasting [98.57851612518758]
確率的時系列予測は、その歴史に基づいて将来の分布を推定する。
本稿では,非線形エミッションモデルと遷移モデルとをネットワークによってパラメータ化した,確率的時系列予測のための深部状態空間モデルを提案する。
実験では,我々のモデルが正確かつ鋭い確率予測を生成することを示す。
論文 参考訳(メタデータ) (2021-01-31T06:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。