論文の概要: ForTIFAI: Fending Off Recursive Training Induced Failure for AI Models
- arxiv url: http://arxiv.org/abs/2509.08972v1
- Date: Wed, 10 Sep 2025 20:06:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.133066
- Title: ForTIFAI: Fending Off Recursive Training Induced Failure for AI Models
- Title(参考訳): ForTIFAI:AIモデルの再帰的トレーニングによる障害を回避
- Authors: Soheil Zibakhsh Shabgahi, Pedram Aghazadeh, Azalia Mirhosseini, Farinaz Koushanfar,
- Abstract要約: 我々は、自己生成データにおけるモデル過信を、崩壊の鍵となる要因として認識する。
我々はTrncated Cross Entropy (TCE)と呼ばれる新しい損失関数を導入する。
これらの結果から、損失関数の設計は、生成モデルの品質を維持するためのシンプルだが強力なツールであることが示された。
- 参考スコア(独自算出の注目度): 10.473487050628671
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing reliance on generative AI models has accelerated the generation rate of synthetic data, with some projections suggesting that most available new data for training could be machine-generated by 2030. This shift to a mainly synthetic content presents a critical challenge: repeated training in synthetic data leads to a phenomenon known as model collapse, where model performance degrades over generations of training, eventually rendering the models ineffective. Although prior studies have explored the causes and detection of model collapse, existing mitigation strategies remain limited. In this paper, we identify model overconfidence in their self-generated data as a key driver of collapse. Building on this observation, we propose a confidence-aware loss function that downweights high-confidence predictions during training. We introduce a novel loss function we call Truncated Cross Entropy (TCE). We demonstrate that TCE significantly delays model collapse in recursive training. We provide a model-agnostic framework that links the loss function design to model collapse mitigation and validate our approach both theoretically and empirically, showing that it can extend the model's fidelity interval before collapse by more than 2.3x. Finally, we show that our method generalizes across modalities. These findings suggest that the design of loss functions provides a simple yet powerful tool for preserving the quality of generative models in the era of increasing synthetic data.
- Abstract(参考訳): 生成AIモデルへの依存度の増加は、合成データの生成速度を加速させ、トレーニング用に利用可能な新しいデータのほとんどは、2030年までにマシン生成される可能性がある、という予測もある。
合成データにおける反復的なトレーニングは、モデル崩壊と呼ばれる現象を引き起こし、モデルの性能が世代によって低下し、最終的にモデルが非効率になる。
従来の研究では、モデル崩壊の原因と検出が検討されてきたが、既存の緩和戦略は限定的のままである。
本稿では,自己生成データにおけるモデル過信を,崩壊の要因として同定する。
この観測に基づいて、トレーニング中に高信頼度予測を下降させる信頼度認識損失関数を提案する。
我々は、Trncated Cross Entropy (TCE)と呼ばれる新しい損失関数を導入する。
TCEは再帰的トレーニングにおいて,モデル崩壊を著しく遅らせることを示した。
本稿では,損失関数設計とモデル崩壊緩和を結びつけるモデル依存フレームワークを提案し,そのモデル忠実度間隔を2.3倍以上に拡張できることを示す。
最後に,本手法がモダリティにまたがって一般化することを示す。
これらの結果から, 損失関数の設計は, 合成データの増大にともなう生成モデルの品質を維持するための, シンプルながら強力なツールであることがわかった。
関連論文リスト
- A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops [55.07063067759609]
高品質なデータは大規模な生成モデルのトレーニングには不可欠だが、オンラインで利用可能な実際のデータの膨大な蓄積はほとんど枯渇している。
モデルは、さらなるトレーニングのために独自のデータを生成し、自己消費訓練ループ(STL)を形成する。
一部のモデルは劣化または崩壊するが、他のモデルはこれらの失敗をうまく回避し、理論的な理解にかなりのギャップを残している。
論文 参考訳(メタデータ) (2025-02-26T06:18:13Z) - Learning by Surprise: Surplexity for Mitigating Model Collapse in Generative AI [1.6545633988217645]
合成コンテンツがWebに浸透するにつれて、生成的AIモデルは自身の出力で再訓練される可能性がある。
これによってモデルが崩壊し、世代間でパフォーマンスと多様性が徐々に失われます。
本稿では,モデルの次点確率分布から直接崩壊を特徴付ける新しい尺度を提案する。
論文 参考訳(メタデータ) (2024-10-16T08:02:48Z) - How Bad is Training on Synthetic Data? A Statistical Analysis of Language Model Collapse [9.59833542807268]
モデル崩壊は、以前に訓練されたモデルから生成された合成データに基づいて新しいモデルが訓練されたときに起こる。
合成データのみを用いたトレーニングでは,モデル崩壊は回避できないことを示す。
モデル崩壊を回避できる合成データの最大量を推定する。
論文 参考訳(メタデータ) (2024-04-07T22:15:13Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Model Collapse Demystified: The Case of Regression [12.115359951879462]
大規模言語や画像生成モデルの普及期における「モデル崩壊」現象について検討する。
我々は、この現象を幅広い状況で定量的に概説する分析式を得る。
モデル崩壊を緩和する適応正則化に基づく簡単な戦略を提案する。
論文 参考訳(メタデータ) (2024-02-12T15:26:01Z) - EsaCL: Efficient Continual Learning of Sparse Models [10.227171407348326]
連続的な学習設定の主な課題は、以前に学習したタスクを実行する方法を忘れずに、タスクのシーケンスを効率的に学習することである。
本研究では,モデルの予測力に悪影響を及ぼすことなく,冗長なパラメータを自動生成する,スパースモデル(EsaCL)の効率的な連続学習法を提案する。
論文 参考訳(メタデータ) (2024-01-11T04:59:44Z) - On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - Closed-form Continuous-Depth Models [99.40335716948101]
連続深度ニューラルモデルは高度な数値微分方程式解法に依存している。
我々は,CfCネットワークと呼ばれる,記述が簡単で,少なくとも1桁高速な新しいモデル群を提示する。
論文 参考訳(メタデータ) (2021-06-25T22:08:51Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。