論文の概要: Controlled LLM Training on Spectral Sphere
- arxiv url: http://arxiv.org/abs/2601.08393v1
- Date: Tue, 13 Jan 2026 09:59:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.144655
- Title: Controlled LLM Training on Spectral Sphere
- Title(参考訳): スペクトル球上でのLDMの制御
- Authors: Tian Xie, Haoming Luo, Haoyu Tang, Yiwen Hu, Jason Klein Liu, Qingnan Ren, Yang Wang, Wayne Xin Zhao, Rui Yan, Bing Su, Chong Luo, Baining Guo,
- Abstract要約: 重み付けと更新の両方に厳密なモジュール単位のスペクトル制約を課す textbfSpectral Sphere アルゴリズム (SSO) を導入する。
我々は,MoEルータロードバランシングの改善,外乱抑制,厳密な制限付きアクティベーションなど,重要な実用的安定性の利点を観察した。
- 参考スコア(独自算出の注目度): 76.60985966206746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling large models requires optimization strategies that ensure rapid convergence grounded in stability. Maximal Update Parametrization ($\boldsymbolμ$P) provides a theoretical safeguard for width-invariant $Θ(1)$ activation control, whereas emerging optimizers like Muon are only ``half-aligned'' with these constraints: they control updates but allow weights to drift. To address this limitation, we introduce the \textbf{Spectral Sphere Optimizer (SSO)}, which enforces strict module-wise spectral constraints on both weights and their updates. By deriving the steepest descent direction on the spectral sphere, SSO realizes a fully $\boldsymbolμ$P-aligned optimization process. To enable large-scale training, we implement SSO as an efficient parallel algorithm within Megatron. Through extensive pretraining on diverse architectures, including Dense 1.7B, MoE 8B-A1B, and 200-layer DeepNet models, SSO consistently outperforms AdamW and Muon. Furthermore, we observe significant practical stability benefits, including improved MoE router load balancing, suppressed outliers, and strictly bounded activations.
- Abstract(参考訳): 大規模なモデルをスケールするには、安定性に根ざした迅速な収束を保証する最適化戦略が必要である。
Maximal Update Parametrization(\boldsymbolμ$P)は、幅不変の$...(1)$アクティベーションコントロールの理論的保護を提供する。
この制限に対処するために、重み付けと更新の両方に厳密なモジュール単位のスペクトル制約を課す \textbf{Spectral Sphere Optimizer (SSO) を導入する。
スペクトル球面上の最も急降下方向を導出することにより、SSOは完全に$\boldsymbolμ$P-alignedの最適化プロセスを実現する。
大規模トレーニングを実現するため,我々はMegatron内でSSOを効率的な並列アルゴリズムとして実装した。
Dense 1.7B、MoE 8B-A1B、200層DeepNetなど様々なアーキテクチャの事前訓練を通じて、SSOはAdamWとMuonを一貫して上回っている。
さらに,MoEルータロードバランシングの改善,外乱抑制,厳密な制限付きアクティベーションなど,実用的安定性の面でも大きなメリットがある。
関連論文リスト
- Towards a Principled Muon under $μ\mathsf{P}$: Ensuring Spectral Conditions throughout Training [0.0]
我々は,大規模言語モデル(LLM)訓練において,$Pが要求するスペクトル条件を確実に保証する方法を示す。
トレーニングプロセスを通じてスペクトル条件を満たすMuon++の変種を開発する。
論文 参考訳(メタデータ) (2026-01-04T00:04:05Z) - Hyperparameter Transfer Enables Consistent Gains of Matrix-Preconditioned Optimizers Across Scales [55.91454326946738]
学習速度と減量率の最適化は,幅広い言語に対して,モデルの幅と深さでどのようにスケールするかを検討する。
我々は、$Pによる学習率のスケーリングは転送を改善するが、それでもかなりの有限幅偏差に悩まされる可能性があることを見出した。
計算-最適スケーリングでは、独立したウェイト崩壊が1/mathrmwidth$で言語間でほぼ最適であることが分かる。
論文 参考訳(メタデータ) (2025-12-05T11:03:41Z) - Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models [97.55009021098554]
本研究の目的は、SLMのリアルタイムレイテンシの主要な決定要因を特定し、SLMの設計とトレーニングのための一般化可能な原則と方法論を提供することである。
我々はNemotron-Flashと呼ばれるハイブリッドSLMの新たなファミリーを導入し、最先端SLMの精度・効率のフロンティアを大幅に向上させる。
論文 参考訳(メタデータ) (2025-11-24T08:46:36Z) - The Curious Case of In-Training Compression of State Space Models [49.819321766705514]
ステートスペースモデル(SSM)は、並列化可能なトレーニングと高速推論の両方を提供する。
鍵となる設計上の課題は、表現力の最大化と計算負荷の制限の間の適切なバランスを打つことだ。
我々のアプローチである textscCompreSSM はリニアリカレントユニットのような線形時間不変SSMに適用されるが、選択モデルにも拡張可能である。
論文 参考訳(メタデータ) (2025-10-03T09:02:33Z) - SlimPack: Fine-Grained Asymmetric Packing for Balanced and Efficient Variable-Length LLM Training [22.230495941666096]
SlimPackは、サンプルをきめ細かなスライスに分解することで、データパッキングとスケジューリングを根本的に再考するフレームワークです。
SlimPackは、大規模な揮発性ワークロードを小さな管理可能なユニットのストリームに変換することで、重要なメモリと通信ボトルネックを軽減する。
非対称分割は、前方と後方の異なる要求に一意に最適化されたバランスの取れたスケジューリングユニットを組み立てる。
論文 参考訳(メタデータ) (2025-09-30T13:37:48Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - Hardware Co-Designed Optimal Control for Programmable Atomic Quantum Processors via Reinforcement Learning [0.18416014644193068]
本稿では,古典的制御ハードウェアに固有の欠陥に対処する,ハードウェア共同設計の量子制御フレームワークを提案する。
提案手法により,高忠実かつ並列な単一ビットゲート操作が可能となることを示す。
システム複雑性が増加するにつれてPPO性能は低下するが、エンドツーエンドの微分可能なRLは99.9$%以上のゲート忠実度を一貫して達成する。
論文 参考訳(メタデータ) (2025-04-16T03:30:40Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。