論文の概要: SIGMA: Scalable Spectral Insights for LLM Collapse
- arxiv url: http://arxiv.org/abs/2601.03385v1
- Date: Tue, 06 Jan 2026 19:47:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.059218
- Title: SIGMA: Scalable Spectral Insights for LLM Collapse
- Title(参考訳): SIGMA: LLM崩壊に対するスケーラブルなスペクトルインサイト
- Authors: Yi Gu, Lingyou Pang, Xiangkun Ye, Tianyu Wang, Jianyu Lin, Carey E. Priebe, Alexander Aue,
- Abstract要約: SIGMA(Spectral Inequalities for Gram Matrix Analysis)は,モデル崩壊のための統一的なフレームワークである。
行列のスペクトル上の決定論的境界を導出するベンチマークを利用することで、SIGMAは表現空間の収縮を追跡するために数学的に基底化された計量を提供する。
我々は、SIGMAが状態への遷移を効果的に捉え、崩壊のメカニズムに関する理論的知見の両方を提供することを示した。
- 参考スコア(独自算出の注目度): 51.863164847253366
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The rapid adoption of synthetic data for training Large Language Models (LLMs) has introduced the technical challenge of "model collapse"-a degenerative process where recursive training on model-generated content leads to a contraction of distributional variance and representational quality. While the phenomenology of collapse is increasingly evident, rigorous methods to quantify and predict its onset in high-dimensional spaces remain elusive. In this paper, we introduce SIGMA (Spectral Inequalities for Gram Matrix Analysis), a unified framework that benchmarks model collapse through the spectral lens of the embedding Gram matrix. By deriving and utilizing deterministic and stochastic bounds on the matrix's spectrum, SIGMA provides a mathematically grounded metric to track the contraction of the representation space. Crucially, our stochastic formulation enables scalable estimation of these bounds, making the framework applicable to large-scale foundation models where full eigendecomposition is intractable. We demonstrate that SIGMA effectively captures the transition towards degenerate states, offering both theoretical insights into the mechanics of collapse and a practical, scalable tool for monitoring the health of recursive training pipelines.
- Abstract(参考訳): 大規模言語モデル(LLMs)の学習用合成データの急速な導入により、モデル生成コンテンツに対する再帰的トレーニングが分散分散と表現品質の縮小につながる、縮退過程である「モデル崩壊」という技術的課題が導入された。
崩壊の現象論はますます明らかになっているが、高次元空間におけるその開始を定量化し予測する厳密な手法はいまだ解明されていない。
本稿では,グラム行列解析のためのスペクトル不等式(Spectral Inequalities for Gram Matrix Analysis)を導入する。
行列のスペクトル上の決定論的および確率的境界を導出し、利用することにより、SIGMAは表現空間の収縮を追跡する数学的に基底化された計量を提供する。
重要なことは、我々の確率的定式化は、これらの境界のスケーラブルな推定を可能にし、完全な固有分解が難解な大規模基盤モデルに適用できる。
SIGMAは、崩壊のメカニズムに関する理論的知見と、再帰的なトレーニングパイプラインの健全性を監視するための実用的でスケーラブルなツールの両方を提供する。
関連論文リスト
- Generate Aligned Anomaly: Region-Guided Few-Shot Anomaly Image-Mask Pair Synthesis for Industrial Inspection [53.137651284042434]
異常検査は製造業において重要な役割を担っているが、異常サンプルの不足は既存の方法の有効性を制限している。
本稿では,GAA (Generate grained Anomaly) を提案する。
GAAは少数のサンプルのみを用いて現実的で多様で意味的に整合した異常を発生させる。
論文 参考訳(メタデータ) (2025-07-13T12:56:59Z) - Symplectic Generative Networks (SGNs): A Hamiltonian Framework for Invertible Deep Generative Modeling [0.0]
本稿では,ハミルトン力学を利用して潜在空間とデータ空間の間の非可逆な体積保存マッピングを構築する深層生成モデルであるemphSymplectic Generative Network(SGN)を紹介する。
シンプレクティックな構造を持ち、ハミルトニアン系の時間発展としてデータ生成をモデル化することにより、SGNはヤコビアン計算の計算オーバーヘッドを発生させることなく正確な精度評価を行う。
論文 参考訳(メタデータ) (2025-05-28T16:13:36Z) - Hallucination Detection in LLMs with Topological Divergence on Attention Graphs [60.83579255387347]
幻覚(Halucination)、すなわち、事実的に誤ったコンテンツを生成することは、大きな言語モデルにとって重要な課題である。
本稿では,TOHA (Topology-based HAllucination detector) をRAG設定に導入する。
論文 参考訳(メタデータ) (2025-04-14T10:06:27Z) - Beyond Progress Measures: Theoretical Insights into the Mechanism of Grokking [50.465604300990904]
グロキング(Grokking)とは、オーバーフィッティングの拡張後のテスト精度の急激な改善を指す。
本研究では、素数演算のタスクにおいて、Transformerの基盤となるグルーキング機構について検討する。
論文 参考訳(メタデータ) (2025-04-04T04:42:38Z) - Linear Noise Approximation Assisted Bayesian Inference on Mechanistic Model of Partially Observed Stochastic Reaction Network [2.325005809983534]
本稿では、部分的に観察された酵素反応ネットワーク(SRN)に対する効率的なベイズ推論手法を開発する。
線形雑音近似(LNA)メタモデルを提案する。
マルコフ・チェイン・モンテカルロの収束を高速化するために、導出確率の勾配を利用して効率的な後方サンプリング手法を開発した。
論文 参考訳(メタデータ) (2024-05-05T01:54:21Z) - Matrix Completion-Informed Deep Unfolded Equilibrium Models for
Self-Supervised k-Space Interpolation in MRI [8.33626757808923]
正規化モデル駆動型ディープラーニング(DL)は,DLの強力な表現能力を活用する能力から注目されている。
理論的に保証され,完全サンプリングラベルに依存しない加速MRIのための自己教師型DLアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-24T07:25:06Z) - Convex Latent-Optimized Adversarial Regularizers for Imaging Inverse
Problems [8.33626757808923]
本稿では,新しいデータ駆動型パラダイムであるConvex Latent-d Adrial Regularizers (CLEAR)を紹介する。
CLEARは、ディープラーニング(DL)と変分正規化の融合を表す。
本手法は従来型のデータ駆動手法と従来型の正規化手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-09-17T12:06:04Z) - Statistical control for spatio-temporal MEG/EEG source imaging with
desparsified multi-task Lasso [102.84915019938413]
脳磁図(MEG)や脳電図(EEG)のような非侵襲的手法は、非侵襲的手法を約束する。
ソースローカライゼーション(ソースイメージング)の問題は、しかしながら、高次元の統計的推測問題を引き起こす。
この問題に対処するために,分離されたマルチタスクラッソ(ecd-MTLasso)のアンサンブルを提案する。
論文 参考訳(メタデータ) (2020-09-29T21:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。