論文の概要: Spectra: Rethinking Optimizers for LLMs Under Spectral Anisotropy
- arxiv url: http://arxiv.org/abs/2602.11185v1
- Date: Fri, 30 Jan 2026 07:09:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-15 14:54:53.737612
- Title: Spectra: Rethinking Optimizers for LLMs Under Spectral Anisotropy
- Title(参考訳): スペクトル:分光異方性下におけるLDMの最適化
- Authors: Zhendong Huang, Hengjie Cao, Fang Dong, Ruijun Huang, Mengyi Chen, Yifeng Yang, Xin Zhang, Anrui Chen, Mingzhi Dong, Yujiang Wang, Jinlong Hou, Qin Lv, Robert P. Dick, Yuan Cheng, Fan Yang, Tun Lu, Li Shang,
- Abstract要約: スパイクテールの分離はトレーニングを通して継続し、スパイクテールの約1.5%しか占めていないが、統計は支配的である。
この優位性は、第2モーメント正規化を通じてテール更新を収縮させ、グローバルに安定した学習速度を締め付けることでテールラーニングを抑制する。
この分析により,ノイズ感度のスペクトルトークンを増幅することなく,支配的な低ランクスパイク部分空間を抑えるスパイクアウェアメントであるSpectraを提案する。
- 参考スコア(独自算出の注目度): 29.13817256697374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gradient signals in LLM training are highly anisotropic: recurrent linguistic structure concentrates energy into a small set of dominant spectral directions, while context specific information resides in a long tail. We show that this spike tail separation persists throughout training, with the spike occupying only about 1.5% of directions yet dominating optimizer statistics. This dominance suppresses tail learning by contracting tail updates through second moment normalization and tightening the globally stable learning rate bound. Motivated by this analysis, we propose Spectra, a spike aware optimizer that suppresses the dominant low rank spike subspace without amplifying the noise sensitive spectral tail. Spectra tracks the spike subspace via cached, warm started power iteration and applies low rank spectral shaping with negligible overhead and substantially reduced optimizer state memory. On LLaMA3 8B trained on 50B tokens, Spectra reaches the same target loss 30% faster than AdamW, reduces per step end to end overhead by 0.7%, cuts optimizer state memory by 49.25%, and improves average downstream accuracy by 1.62%. Compared to Muon, Spectra is 5.1x faster in optimizer processing time, achieves a lower final loss, and improves average accuracy by 0.66%.
- Abstract(参考訳): LLMトレーニングにおけるグラディエント信号は非常に異方性があり、リカレント言語構造はエネルギーを支配的なスペクトル方向の小さなセットに集中させ、コンテキスト固有情報は長いテールに存在する。
このスパイクテール分離はトレーニングを通して継続し、スパイクテールの約1.5%しか占めていないが、オプティマイザの統計は支配的である。
この優位性は、第2モーメント正規化を通じてテール更新を収縮させ、グローバルに安定した学習速度を締め付けることでテールラーニングを抑制する。
この分析により、ノイズ感度スペクトルのテールを増幅することなく、支配的な低ランクスパイク部分空間を抑圧するスパイク対応最適化器であるSpectraを提案する。
Spectraはキャッシュされたウォームスタート・パワー・イテレーションを通じてスパイクサブスペースを追跡し、低ランクのスペクトル・シェーピングを無視可能なオーバーヘッドで適用し、オプティマイザ・ステート・メモリを大幅に削減する。
50BトークンでトレーニングされたLLaMA3 8Bでは、Spectraは同じ目標損失をAdamWよりも30%速く達成し、ステップ毎のオーバーヘッドを0.7%削減し、オプティマイザ状態メモリを49.25%削減し、平均ダウンストリーム精度を1.62%向上した。
Muonと比較すると、Spectraはオプティマイザ処理時間では5.1倍速く、最終損失は低く、平均精度は0.66%向上する。
関連論文リスト
- Spectral Gating Networks [65.9496901693099]
我々は、フィードフォワードネットワークに周波数リッチな表現性を導入するために、スペクトルゲーティングネットワーク(SGN)を導入する。
SGNは、標準活性化経路をコンパクトなスペクトル経路と学習可能なゲートで拡張し、安定したベース動作からモデルを開始することができる。
計算予算に匹敵する精度と効率のトレードオフを継続的に改善する。
論文 参考訳(メタデータ) (2026-02-07T20:00:49Z) - What Really Matters in Matrix-Whitening Optimizers? [99.7641280234926]
行列白化法は要素的に確実に優れていることを示す。
ベト・アダプテッド・バージョンは、サイン・ディフレッシュ・バージョンよりも一貫して上回っている。
低ランク分散推定器は性能損失を伴わずにメモリコストを効果的に削減できる。
論文 参考訳(メタデータ) (2025-10-28T21:59:49Z) - Natural Spectral Fusion: p-Exponent Cyclic Scheduling and Early Decision-Boundary Alignment in First-Order Optimization [11.323131201168572]
自然スペクトル融合(NSF: Natural Spectral Fusion: NSF: Reframing training as controllable spectrum coverage and information fusion)を提案する。
NSFには2つの基本原理がある: バランスを動的に低周波と高周波の情報を扱うスペクトルコントローラとして扱う。
循環スケジューリングはテストエラーを一定に低減し、異なる収束挙動を示す。
論文 参考訳(メタデータ) (2025-09-05T00:00:00Z) - Metis: Training LLMs with FP4 Quantization [28.596611044555306]
メティス(Metis)は、異方性スペクトルを独立量子化のためのより狭い部分分布に分割するフレームワークである。
100Bトークンで訓練されたLLaMA-3 8Bでは、メティスは重量、アクティベーション、勾配のFP4量子化による堅牢なW4A4G4トレーニングを可能にする。
論文 参考訳(メタデータ) (2025-08-30T08:09:08Z) - SpectrumFM: A Foundation Model for Intelligent Spectrum Management [99.08036558911242]
既存のインテリジェントスペクトル管理手法は、通常は小規模モデルに基づいており、認識精度、収束速度、一般化の顕著な制限に悩まされている。
本稿では、スペクトルFMと呼ばれる新しいスペクトル基盤モデルを提案し、スペクトル管理のための新しいパラダイムを確立する。
実験により、SpectrumFMは精度、堅牢性、適応性、少数ショット学習効率、収束速度の点で優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-05-02T04:06:39Z) - Chirp Localization via Fine-Tuned Transformer Model: A Proof-of-Concept Study [0.23020018305241333]
脳波スペクトログラムのチャープ様パターンは発作ダイナミクスの鍵となるバイオマーカーである。
本研究では、視覚変換器(ViT)モデルとローランド適応(LoRA)を微調整することで、このギャップを埋める。
我々は、チャープパラメータを持つ10万のスペクトログラムを生成し、チャープローカライゼーションのための最初の大規模ベンチマークを作成した。
論文 参考訳(メタデータ) (2025-03-24T14:27:07Z) - AdaGC: Improving Training Stability for Large Language Model Pretraining [18.163318397205533]
大きなLanguageText Models(LLM)は、スケーリング中に損失の急増に直面します。
グローバルなクリッピングがこれを緩和する一方で、従来のアプローチは特定のバリエーションを緩和する。
我々は,AdaGCがグローバルクリッピングよりも25%早く収束していることを示す。
論文 参考訳(メタデータ) (2025-02-16T08:13:23Z) - SPAM: Spike-Aware Adam with Momentum Reset for Stable LLM Training [60.9776082805359]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示しているが、そのトレーニングは、非常にリソース集約的で、トレーニングの不安定性に影響を受けやすいままである。
本稿では,LLMトレーニング中に観測された勾配スパイクを包括的に調査し,複数のアーキテクチャやデータセットにまたがる傾向を明らかにする。
本稿では,モーメントムリセットを用いたスパイク・アウェア・アダムを提案し,モーメントムリセットとスパイク・アウェア・クリッピングによる勾配スパイク対策について述べる。
論文 参考訳(メタデータ) (2025-01-12T15:21:22Z) - Non-Parametric Adaptive Network Pruning [125.4414216272874]
アルゴリズム設計を簡略化するノンパラメトリックモデリングを導入。
顔認識コミュニティに触発されて,メッセージパッシングアルゴリズムを用いて,適応的な例示数を求める。
EPrunerは「重要」フィルタを決定する際にトレーニングデータへの依存を壊します。
論文 参考訳(メタデータ) (2021-01-20T06:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。