論文の概要: Future of AI Models: A Computational perspective on Model collapse
- arxiv url: http://arxiv.org/abs/2511.05535v1
- Date: Wed, 29 Oct 2025 15:10:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-16 06:38:31.029731
- Title: Future of AI Models: A Computational perspective on Model collapse
- Title(参考訳): AIモデルの将来: モデル崩壊の計算的視点
- Authors: Trivikram Satharasi, S Sitharama Iyengar,
- Abstract要約: 本研究は,2013年から2025年までの英語ウィキペディアの年次意味的類似性を調べることで,崩壊の定量化と予測を行う。
結果は、初期のRNN/LSTMとテキスト正規化パイプラインによって引き起こされた公的なLLM採用よりも、着実に類似性が高まっていることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Artificial Intelligence, especially Large Language Models (LLMs), has transformed domains such as software engineering, journalism, creative writing, academia, and media (Naveed et al. 2025; arXiv:2307.06435). Diffusion models like Stable Diffusion generate high-quality images and videos from text. Evidence shows rapid expansion: 74.2% of newly published webpages now contain AI-generated material (Ryan Law 2025), 30-40% of the active web corpus is synthetic (Spennemann 2025; arXiv:2504.08755), 52% of U.S. adults use LLMs for writing, coding, or research (Staff 2025), and audits find AI involvement in 18% of financial complaints and 24% of press releases (Liang et al. 2025). The underlying neural architectures, including Transformers (Vaswani et al. 2023; arXiv:1706.03762), RNNs, LSTMs, GANs, and diffusion networks, depend on large, diverse, human-authored datasets (Shi & Iyengar 2019). As synthetic content dominates, recursive training risks eroding linguistic and semantic diversity, producing Model Collapse (Shumailov et al. 2024; arXiv:2307.15043; Dohmatob et al. 2024; arXiv:2402.07712). This study quantifies and forecasts collapse onset by examining year-wise semantic similarity in English-language Wikipedia (filtered Common Crawl) from 2013 to 2025 using Transformer embeddings and cosine similarity metrics. Results reveal a steady rise in similarity before public LLM adoption, likely driven by early RNN/LSTM translation and text-normalization pipelines, though modest due to a smaller scale. Observed fluctuations reflect irreducible linguistic diversity, variable corpus size across years, finite sampling error, and an exponential rise in similarity after the public adoption of LLM models. These findings provide a data-driven estimate of when recursive AI contamination may significantly threaten data richness and model generalization.
- Abstract(参考訳): 人工知能、特にLarge Language Models (LLMs) は、ソフトウェア工学、ジャーナリズム、クリエイティブ・ライティング、アカデミア、メディア(Naveed et al 2025; arXiv:2307.06435)などの領域を変革した。
安定拡散のような拡散モデルは、テキストから高品質な画像やビデオを生成する。
新たに公開されたWebページの74.2%がAI生成材料(Ryan Law 2025)、アクティブなWebコーパスの30-40%が合成(Spennemann 2025; arXiv:2504.08755)、米国の成人の52%が筆記、コーディング、研究にLLMを使用しており(Staff 2025)、監査の結果、AIが財務上の苦情の18%とプレスリリースの24%に関わっていることが判明した(Liang et al 2025)。
Transformers (Vaswani et al 2023; arXiv:1706.03762), RNNs, LSTMs, GANs, 拡散ネットワークなど,基盤となるニューラルネットワークは,大規模で多種多様な人為的なデータセットに依存している(Shi & Iyengar 2019)。
合成コンテンツが支配されるにつれて、再帰的訓練は言語と意味の多様性を侵食し、モデル崩壊を発生させる(Shumailov et al 2024; arXiv:2307.15043; Dohmatob et al 2024; arXiv:2402.07712; arXiv:2402.07712)。
本研究は,2013年から2025年までの英語ウィキペディアの年次意味的類似度をトランスフォーマー埋め込みとコサイン類似度指標を用いて定量化し,予測する。
RNN/LSTM翻訳とテキスト正規化パイプラインによって引き起こされた公的なLLM導入前の相似性は着実に上昇するが、規模が小さくなっているため、緩やかである。
観測された揺らぎは、既約言語の多様性、長年にわたる可変コーパスサイズ、有限サンプリング誤差、LLMモデルの普及後の指数関数的な類似性の増大を反映している。
これらの結果は、再帰的AI汚染がデータの豊かさとモデルの一般化を著しく脅かす可能性があることを、データ駆動で見積もっている。
関連論文リスト
- Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond) [90.45301024940329]
言語モデル(LM)は、多様で人間らしい創造的コンテンツを生成するのに苦労することが多い。
Infinity-Chatは26万の多様な実世界のオープンエンドユーザクエリからなる大規模データセットである。
本研究では, LMのモード崩壊について大規模に検討し, 人工Hivemind効果が明らかとなった。
論文 参考訳(メタデータ) (2025-10-27T03:16:21Z) - Does GenAI Rewrite How We Write? An Empirical Study on Two-Million Preprints [15.070885964897734]
生成型大規模言語モデル(LLM)は、原稿の書き方を変えることによって、さらなる破壊をもたらす可能性がある。
本稿は、2016年から2025年(115ヶ月)にかけての2100万件以上のプレプリントを4つの主要なリポジトリで大規模に分析することで、このギャップを解消する。
以上の結果から,LSMは提出サイクルと修正サイクルを加速し,言語的複雑性が緩やかに増加し,AI関連トピックが不均等に拡大したことが明らかとなった。
論文 参考訳(メタデータ) (2025-10-18T01:37:40Z) - Riemannian-Geometric Fingerprints of Generative Models [10.098284109691138]
生成モデル(GM)のアーティファクトと指紋の新しい定義を提案する。
我々はこの理論を、実際に指紋を計算するための新しい勾配に基づくアルゴリズムに適用する。
結果は,2つの異なる解像度で4つの異なるデータセットにまたがって,GMの大規模な配列を識別する方が効果的であることを示している。
論文 参考訳(メタデータ) (2025-06-28T08:08:16Z) - Could AI Trace and Explain the Origins of AI-Generated Images and Text? [53.11173194293537]
AI生成コンテンツは、現実の世界ではますます普及している。
敵は、大規模なマルチモーダルモデルを利用して、倫理的または法的基準に違反した画像を作成するかもしれない。
ペーパーレビュアーは、大きな言語モデルを誤用して、真の知的努力なしにレビューを生成する。
論文 参考訳(メタデータ) (2025-04-05T20:51:54Z) - What fifty-one years of Linguistics and Artificial Intelligence research tell us about their correlation: A scientometric analysis [0.0]
この研究は、1974年から2024年までの51年間にわたる知的生産を合成し、この相関関係を徹底的に科学的に分析する。
その結果、1980年代から1990年代にかけて、言語学とAI(AIL)の研究は、時間とともに不安定な出版によって特徴づけられ、堅牢ではなかったことが示唆された。
言語学とAIの相関関係は、いくつかのレベル、研究センター、ジャーナル、そしてAILの知識生産を形作り、将来のフロンティアを形作る国で確立されていると結論付けている。
論文 参考訳(メタデータ) (2024-11-29T17:12:06Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Scaling Laws Do Not Scale [54.72120385955072]
最近の研究によると、データセットのサイズが大きくなると、そのデータセットでトレーニングされたモデルのパフォーマンスが向上する。
このスケーリング法則の関係は、モデルのアウトプットの質を異なる集団がどのように認識するかと一致しないパフォーマンスを測定するために使われる指標に依存する、と我々は主張する。
異なるコミュニティは、互いに緊張関係にある価値を持ち、モデル評価に使用されるメトリクスについて、困難で、潜在的に不可能な選択をもたらす可能性がある。
論文 参考訳(メタデータ) (2023-07-05T15:32:21Z) - The Curse of Recursion: Training on Generated Data Makes Models Forget [70.02793975243212]
大規模言語モデル(LLM)が存続し、オンラインテキストと画像のエコシステム全体に劇的な変化をもたらすだろう。
トレーニングにおけるモデル生成コンテンツの使用は、元のコンテンツ分布の尾部が消える結果のモデルに不可逆的な欠陥を引き起こす。
論文 参考訳(メタデータ) (2023-05-27T15:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。