論文の概要: Sharp Capacity Scaling of Spectral Optimizers in Learning Associative Memory
- arxiv url: http://arxiv.org/abs/2603.26554v1
- Date: Fri, 27 Mar 2026 16:13:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.584775
- Title: Sharp Capacity Scaling of Spectral Optimizers in Learning Associative Memory
- Title(参考訳): 連想記憶学習におけるスペクトル最適化器のシャープ容量スケーリング
- Authors: Juno Kim, Eshaan Nichani, Denny Wu, Alberto Bietti, Jason D. Lee,
- Abstract要約: Muonのようなスペクトルは、最近、大規模な言語モデルトレーニングにおいて、強い経験的パフォーマンスを示している。
我々はこの問題を線形連想記憶問題を通して研究する。
また,Muonの貯蔵能力はSGDよりも有意に高いことがわかった。
- 参考スコア(独自算出の注目度): 77.27772368491698
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spectral optimizers such as Muon have recently shown strong empirical performance in large-scale language model training, but the source and extent of their advantage remain poorly understood. We study this question through the linear associative memory problem, a tractable model for factual recall in transformer-based models. In particular, we go beyond orthogonal embeddings and consider Gaussian inputs and outputs, which allows the number of stored associations to greatly exceed the embedding dimension. Our main result sharply characterizes the recovery rates of one step of Muon and SGD on the logistic regression loss under a power law frequency distribution. We show that the storage capacity of Muon significantly exceeds that of SGD, and moreover Muon saturates at a larger critical batch size. We further analyze the multi-step dynamics under a thresholded gradient approximation and show that Muon achieves a substantially faster initial recovery rate than SGD, while both methods eventually converge to the information-theoretic limit at comparable speeds. Experiments on synthetic tasks validate the predicted scaling laws. Our analysis provides a quantitative understanding of the signal amplification of Muon and lays the groundwork for establishing scaling laws across more practical language modeling tasks and optimizers.
- Abstract(参考訳): Muonのようなスペクトルオプティマイザは、最近、大規模な言語モデルトレーニングにおいて、強い経験的性能を示してきたが、その利点の源泉と範囲はいまだによく分かっていない。
本稿では,リニア連想記憶問題(Transformer-based model)における現実的リコールのための抽出可能なモデル)を通して,この問題を考察する。
特に、直交埋め込みを超えてガウスの入力と出力を考えると、保存された関連の個数は埋め込み次元を大きく超える。
本研究の主な成果は,電力法周波数分布下でのロジスティック回帰損失に対するMuonとSGDの一段階の回復率を著しく特徴付けるものである。
我々は,Muonのストレージ容量がSGDのストレージ容量をはるかに上回ることを示す。
さらに、しきい値勾配近似の下での多段階のダイナミクスを解析し、MuonがSGDよりもかなり高速な初期回復率を達成し、両手法が最終的に同等の速度で情報理論の限界に収束することを示した。
合成タスクの実験は、予測スケーリング法則を検証する。
本分析は,Muonの信号増幅を定量的に把握し,より実践的な言語モデリングタスクやオプティマイザにまたがるスケーリング法則の確立の基礎となる。
関連論文リスト
- Deriving Hyperparameter Scaling Laws via Modern Optimization Theory [55.63126290312615]
線形最小化Oracle(LMO)に基づく手法の最近の一階境界について検討する。
近年の文献のバウンダリをプロキシとして扱い、異なるチューニング規則をまたいでそれらを最小化することで、学習率、運動量、バッチサイズに関するクローズドフォームのパワーロースケジュールが得られる。
本研究の結果は, 運動量とバッチサイズスケーリングの相互作用に特に注意を払っており, いくつかのスケーリング戦略によって最適性能が達成される可能性が示唆された。
論文 参考訳(メタデータ) (2026-03-16T22:21:27Z) - Muon in Associative Memory Learning: Training Dynamics and Scaling Laws [23.350512542598803]
We study Muon in a linear associative memory model with softmax search and ahierarchical frequency spectrum over query-apwer pairs。
我々は、Muonがこの不均衡を緩和し、より速く、より均一な進歩をもたらすことを示す。
論文 参考訳(メタデータ) (2026-02-05T14:49:40Z) - Breaking the Memory Wall: Exact Analytical Differentiation via Tiled Operator-Space Evolution [3.551701030393209]
位相勾配流(PGF)は、状態空間多様体で直接操作することで正確な解析微分を計算するフレームワークである。
提案手法は,最大VRAMの94%削減,スループットの23倍のO(1)メモリの複雑性を実現する。
我々の研究は1つのGPU上で染色体スケールの感度解析を可能にし、理論的な無限コンテキストモデルと実用的なハードウェアの限界のギャップを埋める。
論文 参考訳(メタデータ) (2025-12-28T20:27:58Z) - A Convergence Analysis of Adaptive Optimizers under Floating-point Quantization [32.97211471008323]
我々は、勾配、重み、状態の浮動小数点量子化の下で、アダムやムオンを含む適応収束の最初の理論的枠組みを導入する。
両アルゴリズムが完全精度のアルゴリズムに近い収束率を維持していることを示す。
我々はさらに、Adamが$beta から 1$ への依存のため、高い感度と第二モーメントの量子化重みに敏感であることを明らかにし、Muon はより弱いエラー制御を必要とするため、より堅牢である可能性がある。
論文 参考訳(メタデータ) (2025-10-24T10:16:23Z) - Functional Scaling Laws in Kernel Regression: Loss Dynamics and Learning Rate Schedules [9.332823269318842]
スケーリング法則は、大きな言語モデルのトレーニングを理解し、導くための統一レンズとして登場した。
我々は任意のLSSの下で全損失軌跡を捕捉する機能スケーリング法を確立した。
データ制限と計算制限の両方で明示的なスケーリング関係を導出する。
論文 参考訳(メタデータ) (2025-09-23T16:05:16Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。