論文の概要: ForTIFAI: Fending Off Recursive Training Induced Failure for AI Models
- arxiv url: http://arxiv.org/abs/2509.08972v3
- Date: Mon, 06 Oct 2025 23:45:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 15:38:21.389447
- Title: ForTIFAI: Fending Off Recursive Training Induced Failure for AI Models
- Title(参考訳): ForTIFAI:AIモデルの再帰的トレーニングによる障害を回避
- Authors: Soheil Zibakhsh Shabgahi, Pedram Aghazadeh, Azalia Mirhoseini, Farinaz Koushanfar,
- Abstract要約: 合成データにおけるモデル崩壊を緩和するために,Trncated-Cross-Entropy (TCE)損失関数を導入する。
TCEはトレーニング中に高信頼トークンを選択的に無視することで崩壊を緩和し、マシン生成の可能性があるアーティファクトを効果的にフィルタリングする。
以上の結果から,信頼性に配慮した学習目標が崩壊を著しく遅らせることが示され,合成データ露光下でのモデルロバスト性のための実用的で一般化可能なツールが提供される。
- 参考スコア(独自算出の注目度): 13.096745830570944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing reliance on generative AI models is rapidly increasing the volume of synthetic data, with some projections suggesting that most available new data for training could be machine-generated by 2030. This shift to a mainly synthetic content presents a critical challenge: repeated training in synthetic data leads to a phenomenon known as model collapse, where model performance degrades over generations of training, eventually rendering the models ineffective. While the causes of model collapse are increasingly understood, effective mitigation strategies remain scarce. We address this challenge by leveraging a key insight: auto-regressive models tend to generate text sequences to which they assign high confidence (i.e., high log-likelihood). Based on this observation, we introduce the Truncated-Cross-Entropy (TCE) loss function. TCE mitigates collapse by selectively ignoring high-confidence tokens during training, effectively filtering out likely machine-generated artifacts from the learning process. Our experiments demonstrate that models trained with TCE not only learn effectively but also exhibit significantly increased resilience, tolerating over 2.3x more synthetic data before the onset of collapse. In addition, we provide an open-source benchmark for collapse dynamics in mixed-data settings. Our results demonstrate that confidence-aware training objectives can substantially delay collapse onset, offering a practical and generalizable tool for model robustness under synthetic-data exposure.
- Abstract(参考訳): 生成AIモデルへの依存度の増加は、合成データの容量を急速に増加させており、トレーニング用に利用可能な新しいデータのほとんどは、2030年までにマシン生成される可能性がある、という予測もある。
合成データにおける反復的なトレーニングは、モデル崩壊と呼ばれる現象を引き起こし、モデルの性能が世代によって低下し、最終的にモデルが非効率になる。
モデル崩壊の原因はますます理解されているが、効果的な緩和戦略は依然として乏しい。
自動回帰モデルは高い信頼度(すなわち高いログライクな状態)を割り当てるテキストシーケンスを生成する傾向がある。
そこで本研究では,Truncated-Cross-Entropy (TCE)損失関数を提案する。
TCEは、トレーニング中に高信頼トークンを選択的に無視することで、崩壊を緩和し、学習プロセスからマシン生成可能なアーティファクトを効果的にフィルタリングする。
実験により,TCEでトレーニングしたモデルは,効率よく学習するだけでなく,弾力性も著しく向上し,崩壊前に2.3倍以上の合成データが許容されることがわかった。
さらに、混合データ設定における崩壊ダイナミクスのオープンソースベンチマークも提供する。
以上の結果から,信頼性に配慮した学習目標が崩壊を著しく遅らせることが示され,合成データ露光下でのモデルロバスト性のための実用的で一般化可能なツールが提供される。
関連論文リスト
- A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops [55.07063067759609]
高品質なデータは大規模な生成モデルのトレーニングには不可欠だが、オンラインで利用可能な実際のデータの膨大な蓄積はほとんど枯渇している。
モデルは、さらなるトレーニングのために独自のデータを生成し、自己消費訓練ループ(STL)を形成する。
一部のモデルは劣化または崩壊するが、他のモデルはこれらの失敗をうまく回避し、理論的な理解にかなりのギャップを残している。
論文 参考訳(メタデータ) (2025-02-26T06:18:13Z) - Learning by Surprise: Surplexity for Mitigating Model Collapse in Generative AI [1.6545633988217645]
合成コンテンツがWebに浸透するにつれて、生成的AIモデルは自身の出力で再訓練される可能性がある。
これによってモデルが崩壊し、世代間でパフォーマンスと多様性が徐々に失われます。
本稿では,モデルの次点確率分布から直接崩壊を特徴付ける新しい尺度を提案する。
論文 参考訳(メタデータ) (2024-10-16T08:02:48Z) - How Bad is Training on Synthetic Data? A Statistical Analysis of Language Model Collapse [9.59833542807268]
モデル崩壊は、以前に訓練されたモデルから生成された合成データに基づいて新しいモデルが訓練されたときに起こる。
合成データのみを用いたトレーニングでは,モデル崩壊は回避できないことを示す。
モデル崩壊を回避できる合成データの最大量を推定する。
論文 参考訳(メタデータ) (2024-04-07T22:15:13Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Model Collapse Demystified: The Case of Regression [12.115359951879462]
大規模言語や画像生成モデルの普及期における「モデル崩壊」現象について検討する。
我々は、この現象を幅広い状況で定量的に概説する分析式を得る。
モデル崩壊を緩和する適応正則化に基づく簡単な戦略を提案する。
論文 参考訳(メタデータ) (2024-02-12T15:26:01Z) - EsaCL: Efficient Continual Learning of Sparse Models [10.227171407348326]
連続的な学習設定の主な課題は、以前に学習したタスクを実行する方法を忘れずに、タスクのシーケンスを効率的に学習することである。
本研究では,モデルの予測力に悪影響を及ぼすことなく,冗長なパラメータを自動生成する,スパースモデル(EsaCL)の効率的な連続学習法を提案する。
論文 参考訳(メタデータ) (2024-01-11T04:59:44Z) - On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - Closed-form Continuous-Depth Models [99.40335716948101]
連続深度ニューラルモデルは高度な数値微分方程式解法に依存している。
我々は,CfCネットワークと呼ばれる,記述が簡単で,少なくとも1桁高速な新しいモデル群を提示する。
論文 参考訳(メタデータ) (2021-06-25T22:08:51Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。