論文の概要: Enhancing LLM Training via Spectral Clipping
- arxiv url: http://arxiv.org/abs/2603.14315v1
- Date: Sun, 15 Mar 2026 10:16:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.741379
- Title: Enhancing LLM Training via Spectral Clipping
- Title(参考訳): スペクトルクリッピングによるLDMトレーニングの強化
- Authors: Xiaowen Jiang, Andrei Semenov, Sebastian U. Stich,
- Abstract要約: SPECTRAは、スペクトル-ノルム制約を強制する更新のスペクトル後クリッピングのためのフレームワークである。
我々は、SPECTRAがAdamW、Signum、AdEMAMixなどの様々なバリデーションの損失を均一に改善することを示す。
- 参考スコア(独自算出の注目度): 28.270053200038586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While spectral-based optimizers like Muon operate directly on the spectrum of updates, standard adaptive methods such as AdamW do not account for the global spectral structure of weights and gradients, leaving them vulnerable to two empirical issues in large language model (LLM) training: (i) the optimizer updates can have large spectral norms, potentially destabilizing training and degrading generalization; (ii) stochastic gradient noise can exhibit sparse spectral spikes, with a few dominant singular values much larger than the rest. We propose SPECTRA, a general framework addressing these by (i) post-spectral clipping of updates to enforce spectral-norm constraints; (ii) optional pre-spectral clipping of gradients to suppress spectral noise spikes. We prove that post-clipping constitutes a Composite Frank-Wolfe method with spectral-norm constraints and weight regularization, recovering Frobenius and $\ell_{\infty}$-norm regularization with SGD-based and sign-based methods. We further analyze how pre-clipping mitigates sparse spectral spikes. We propose efficient soft spectral clipping via Newton-Schulz iterations, avoiding expensive SVD. Experiments on LLM pretraining show SPECTRA uniformly improves validation loss for various optimizers, including AdamW, Signum, and AdEMAMix, with the best-performing variants achieving state-of-the-art results. Models trained with SPECTRA exhibit smaller weight norms, confirming the link between spectral clipping and regularization.
- Abstract(参考訳): Muonのようなスペクトルベースのオプティマイザは、更新のスペクトルを直接操作するが、AdamWのような標準適応手法は、重みと勾配のグローバルなスペクトル構造を考慮せず、大きな言語モデル(LLM)トレーニングにおける2つの経験的問題に弱いままである。
i)オプティマイザ更新は、大きなスペクトルノルムを持ち、トレーニングを不安定にし、一般化を劣化させる可能性がある。
(II)確率勾配ノイズは、他のものよりもかなり大きいいくつかの支配的な特異値を持つスパーススペクトルスパイクを示す。
我々はこれらの問題に対処する一般的なフレームワークであるSPECTRAを提案する。
一 スペクトルノルム制約を施行するための更新後の切断
2) スペクトルノイズスパイクを抑制するため, 勾配の任意の前スペクトルクリッピングを行う。
ポストクリッピングは、スペクトルノルム制約と重み正規化を伴い、Frobenius と $\ell_{\infty}$-norm regularization を SGD-based and sign-based method で回復する合成フランク・ウルフ法を構成することを証明した。
さらに、スパルススペクトルのスパイクを緩和する前兆を分析した。
我々は,Newton-Schulz反復による効率的なソフトスペクトルクリッピングを提案し,高価なSVDを回避する。
LLMプレトレーニングの実験では、SPECTRAはAdamW、Signum、AdEMAMixなどの様々なオプティマイザのバリデーション損失を均一に改善する。
SPECTRAで訓練されたモデルはより少ない重量ノルムを示し、スペクトルクリッピングと正規化のリンクを確認する。
関連論文リスト
- Generalization from Low- to Moderate-Resolution Spectra with Neural Networks for Stellar Parameter Estimation: A Case Study with DESI [33.83813864639123]
クロスサーベイの一般化は恒星スペクトル分析において重要な課題であり、特に低分解能から中分解能のサーベイへの移行のような場合である。
多層パーセプトロン(MLP)のような単純なニューラルネットワークに着目し,事前学習モデルを用いてこの問題を考察する。
具体的には、LESまたはそれらの埋め込みを事前トレーニングし、DESI恒星スペクトルに適用するためにそれらを微調整する。
LAMOST LRSの事前学習により,微調整がなくても高い性能が得られ,DESIスペクトルによる微調整がさらに改善されることが判明した。
論文 参考訳(メタデータ) (2026-02-16T18:58:47Z) - Spectral Gating Networks [65.9496901693099]
我々は、フィードフォワードネットワークに周波数リッチな表現性を導入するために、スペクトルゲーティングネットワーク(SGN)を導入する。
SGNは、標準活性化経路をコンパクトなスペクトル経路と学習可能なゲートで拡張し、安定したベース動作からモデルを開始することができる。
計算予算に匹敵する精度と効率のトレードオフを継続的に改善する。
論文 参考訳(メタデータ) (2026-02-07T20:00:49Z) - On the Spectral Flattening of Quantized Embeddings [25.64641307046705]
超低精度での大規模言語モデルの訓練は、離散量子化制約と言語データの本質的な重み付きスペクトル特性の相違に根ざした不安定性によって、決定的に阻害される。
この研究は、LLMのスペクトル感度を定量化するだけでなく、安定な低ビット最適化に必要な条件としてスペクトル忠実性を確立する。
論文 参考訳(メタデータ) (2026-02-01T02:21:53Z) - Natural Spectral Fusion: p-Exponent Cyclic Scheduling and Early Decision-Boundary Alignment in First-Order Optimization [11.323131201168572]
自然スペクトル融合(NSF: Natural Spectral Fusion: NSF: Reframing training as controllable spectrum coverage and information fusion)を提案する。
NSFには2つの基本原理がある: バランスを動的に低周波と高周波の情報を扱うスペクトルコントローラとして扱う。
循環スケジューリングはテストエラーを一定に低減し、異なる収束挙動を示す。
論文 参考訳(メタデータ) (2025-09-05T00:00:00Z) - Gradient Normalization Provably Benefits Nonconvex SGD under Heavy-Tailed Noise [60.92029979853314]
重み付き雑音下でのグラディエントDescence(SGD)の収束を確実にする上での勾配正規化とクリッピングの役割について検討する。
我々の研究は、重尾雑音下でのSGDの勾配正規化の利点を示す最初の理論的証拠を提供する。
我々は、勾配正規化とクリッピングを取り入れた加速SGD変種を導入し、さらに重み付き雑音下での収束率を高めた。
論文 参考訳(メタデータ) (2024-10-21T22:40:42Z) - Holistic Physics Solver: Learning PDEs in a Unified Spectral-Physical Space [54.13671100638092]
Holistic Physics Mixer (HPM) は、スペクトルと物理情報を統一された空間に統合するためのフレームワークである。
我々はHPMが精度と計算効率の両面で最先端の手法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2024-10-15T08:19:39Z) - Spectral Adapter: Fine-Tuning in Spectral Space [45.72323731094864]
本研究では, 既訓練重量行列のスペクトル情報を微調整手順に組み込むことにより, 現在のPEFT法の強化について検討した。
提案するファインチューニングモデルにより,パラメータ効率とチューニング性能が向上し,マルチアダプタ融合のメリットが期待できることを示す。
論文 参考訳(メタデータ) (2024-05-22T19:36:55Z) - MST++: Multi-stage Spectral-wise Transformer for Efficient Spectral
Reconstruction [148.26195175240923]
効率的なスペクトル再構成のためのマルチステージスペクトル変換器(MST++)を提案する。
NTIRE 2022 Spectral Reconstruction Challengeでは、私たちのアプローチが優勝しました。
論文 参考訳(メタデータ) (2022-04-17T02:39:32Z) - Hyperspectral Image Denoising Using Non-convex Local Low-rank and Sparse
Separation with Spatial-Spectral Total Variation Regularization [49.55649406434796]
本研究では,HSI復調のためのロバストな主成分分析のための新しい非特異なアプローチを提案する。
我々は、ランクとスパースコンポーネントの両方に対する正確な近似を開発する。
シミュレーションと実HSIの両方の実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-01-08T11:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。