論文の概要: MSign: An Optimizer Preventing Training Instability in Large Language Models via Stable Rank Restoration
- arxiv url: http://arxiv.org/abs/2602.01734v1
- Date: Mon, 02 Feb 2026 07:18:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.970547
- Title: MSign: An Optimizer Preventing Training Instability in Large Language Models via Stable Rank Restoration
- Title(参考訳): MSign: 安定ランク復元による大規模言語モデルのトレーニング不安定性防止のための最適化
- Authors: Lianhai Ren, Yucheng Ding, Xiao Liu, Qianxiao Li, Peng Cheng, Yeyun Gong,
- Abstract要約: トレーニング不安定性は、大規模言語モデルの事前トレーニングにおいて依然として重要な課題である。
我々は,5MナノGPTモデルにおけるトレーニング失敗をP$で評価した。
安定なランクを回復するために行列手演算を周期的に適用する新しいノルムであるMSignを提案する。
- 参考スコア(独自算出の注目度): 48.446476072756276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training instability remains a critical challenge in large language model (LLM) pretraining, often manifesting as sudden gradient explosions that waste significant computational resources. We study training failures in a 5M-parameter NanoGPT model scaled via $μ$P, identifying two key phenomena preceding collapse: (1) rapid decline in weight matrix stable rank (ratio of squared Frobenius norm to squared spectral norm), and (2) increasing alignment between adjacent layer Jacobians. We prove theoretically that these two conditions jointly cause exponential gradient norm growth with network depth. To break this instability mechanism, we propose MSign, a new optimizer that periodically applies matrix sign operations to restore stable rank. Experiments on models from 5M to 3B parameters demonstrate that MSign effectively prevents training failures with a computational overhead of less than 7.0%.
- Abstract(参考訳): 訓練不安定性は、大きな言語モデル(LLM)事前訓練において重要な課題であり、しばしば重要な計算資源を浪費する急激な勾配爆発として表される。
1) 質量行列安定ランクの急激な低下 (2乗スペクトルノルムと2乗スペクトルノルムとの比比) と, (2) 隣り合う層ヤコビアンとの整合性の増加 (2 つの重要な現象) を同定し, μ$Pでスケールした5MパラメータナノGPTモデルのトレーニング失敗について検討した。
これら2つの条件がネットワーク深さとともに指数勾配ノルム成長を引き起こすことを理論的に証明する。
この不安定性のメカニズムを断ち切るために、安定なランクを回復するためにマトリックスサイン演算を周期的に適用する新しい最適化器であるMSignを提案する。
5Mから3Bパラメータのモデルでの実験では、MSignは計算オーバーヘッドが7.0%未満のトレーニング障害を効果的に防止している。
関連論文リスト
- HE-SNR: Uncovering Latent Logic via Entropy for Guiding Mid-Training on SWE-BENCH [11.643006508214887]
SWE-benchは、複雑なソフトウェアエンジニアリングタスクで大規模言語モデルを評価するための主要なベンチマークとして登場した。
Perplexity(PPL)のような標準メトリクスは、"Long-Context Tax"によって妥協され、下流SWEのパフォーマンスと弱い相関を示す。
提案するエントロピー圧縮仮説は,スカラートップ1圧縮ではなく,エントロピー圧縮状態に不確実性を構築する能力によって,インテリジェンスを再定義するものである。
論文 参考訳(メタデータ) (2026-01-28T05:03:24Z) - M-GRPO: Stabilizing Self-Supervised Reinforcement Learning for Large Language Models with Momentum-Anchored Policy Optimization [9.358876832727239]
自己教師付き強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高めるための有望なアプローチを示す
従来の手法では,長期のトレーニングにおいて,パフォーマンスが急激に低下する「政治崩壊」という,致命的な障害モードに悩まされていることがわかった。
我々は、ゆっくりと進化する運動量モデルを利用して安定したトレーニングターゲットを提供するフレームワークであるM-GRPOを紹介する。
また,低エントロピートラジェクトリを動的に振る舞うIQR(Interquartile Range)に基づく適応フィルタリング手法を提案する。
論文 参考訳(メタデータ) (2025-12-15T08:07:23Z) - Agentic World Modeling for 6G: Near-Real-Time Generative State-Space Reasoning [70.56067503630486]
第6世代(6G)インテリジェンスは、流動的なトークン予測ではなく、想像と選択の能力を校正している、と我々は主張する。
We showed that WM-MS3M cuts mean absolute error (MAE) by 1.69% vs MS3M with 32% less parameters and similar latency, and achieve a 35-80% lower root mean squared error (RMSE) than attention/hybrid baselines with 2.3-4.1x faster inference。
論文 参考訳(メタデータ) (2025-11-04T17:22:22Z) - MaP: A Unified Framework for Reliable Evaluation of Pre-training Dynamics [72.00014675808228]
大規模言語モデルの不安定性評価プロセスは、真の学習力学を曖昧にする。
textbfMaPは、アンダーラインMergingアンダーラインとアンダーラインPass@kメトリックを統合するフレームワークです。
実験により、MaPはよりスムーズな性能曲線を示し、ラン間分散を低減し、より一貫性のあるランキングを保証する。
論文 参考訳(メタデータ) (2025-10-10T11:40:27Z) - Overtrained Language Models Are Harder to Fine-Tune [64.44743256512237]
大規模言語モデルは、成長を続けるトークン予算に基づいて事前訓練されている。
事前トレーニングの拡張により、モデルを微調整しにくくなり、最終的なパフォーマンスが低下することを示した。
論文 参考訳(メタデータ) (2025-03-24T23:11:56Z) - Adaptive Epsilon Adversarial Training for Robust Gravitational Wave Parameter Estimation Using Normalizing Flows [2.4184866684341473]
正規化フロー(NF)モデルを用いたアドリラルトレーニングは、敵のサンプルを用いてモデルロバスト性を改善することを目的とした、新たな研究分野である。
本稿では,対数スケーリングを用いた勾配等級に基づく摂動強度を動的に調整するFGSM(Fast Gradient Sign Method)の適応型エプシロン法を提案する。
我々のハイブリッドアーキテクチャは、ResNetとInverse Autoregressive Flowを組み合わせることで、ベースラインモデルと比較してFGSM攻撃下での負のログ類似損失を47%削減します。
摂動強度0.05の強いプロジェクテッド・グラディエント・ディフレッシュ・アタックの下では、我々のモデルは6.4のNLLを維持し、優れたロバスト性を示しながら回避している。
論文 参考訳(メタデータ) (2024-12-10T14:48:59Z) - Stable Language Model Pre-training by Reducing Embedding Variability [29.698610741413045]
言語モデルの事前学習安定性を評価するためのプロキシとして,Token Embedding Variability(TEV)について検討する。
また,このような不安定性を緩和するアーキテクチャとして,MLRA(Multi-head Low-Rank Attention)を提案する。
MLRAを用いたGPT-2実験の結果,特に深部モデルでは安定性が向上し,パープレキシティが低下した。
論文 参考訳(メタデータ) (2024-09-12T06:37:46Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。