論文の概要: NuMuon: Nuclear-Norm-Constrained Muon for Compressible LLM Training
- arxiv url: http://arxiv.org/abs/2603.03597v1
- Date: Wed, 04 Mar 2026 00:10:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.130885
- Title: NuMuon: Nuclear-Norm-Constrained Muon for Compressible LLM Training
- Title(参考訳): NuMuon:圧縮性LLMトレーニングのための原子力規制ミューオン
- Authors: Hadi Mohaghegh Dolatabadi, Thalaiyasingam Ajanthan, Sameera Ramasinghe, Chamin P Hewa Koneputugodage, Shamane Siriwardhana, Violetta Shevchenko, Karol Pajak, James Snewin, Gil Avraham, Alexander Long,
- Abstract要約: フルランク更新を行うにもかかわらず,無音訓練モデルでは重み行列の低ランク構造が顕著に示され,標準パイプラインで容易に圧縮可能であることを示す。
更新方向の核ノルム制約でミューオンを増強し,低ランク構造への学習重み付けをさらに制限するNuMuonを提案する。
- 参考スコア(独自算出の注目度): 50.27276603708547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid progress of large language models (LLMs) is increasingly constrained by memory and deployment costs, motivating compression methods for practical deployment. Many state-of-the-art compression pipelines leverage the low-rank structure of trained weight matrices, a phenomenon often associated with the properties of popular optimizers such as Adam. In this context, Muon is a recently proposed optimizer that improves LLM pretraining via full-rank update steps, but its induced weight-space structure has not been characterized yet. In this work, we report a surprising empirical finding: despite imposing full-rank updates, Muon-trained models exhibit pronounced low-rank structure in their weight matrices and are readily compressible under standard pipelines. Motivated by this insight, we propose NuMuon, which augments Muon with a nuclear-norm constraint on the update direction, further constraining the learned weights toward low-rank structure. Across billion-parameter-scale models, we show that NuMuon increases weight compressibility and improves post-compression model quality under state-of-the-art LLM compression pipelines while retaining Muon's favorable convergence behavior.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、メモリとデプロイメントのコストによってますます制約され、実用的なデプロイメントのための圧縮メソッドを動機付けている。
多くの最先端圧縮パイプラインは、訓練された重量行列の低ランク構造を利用する。
この文脈では、Muonはフルランク更新ステップによるLCM事前訓練を改善する最適化器として最近提案されているが、その重み空間構造はまだ特徴付けられていない。
本研究は,フルランク更新の実施にもかかわらず,無音訓練モデルでは重量行列に低ランク構造が顕著に示され,標準パイプラインで容易に圧縮可能である,という驚くべき経験的発見を報告する。
この知見に触発されて、我々はNuMuonを提案する。これは、Muonを更新方向の核ノルム制約で強化し、学習重量を低ランク構造に制限する。
数十億パラメータスケールモデル全体で、NuMuonは重量圧縮性を高め、ムオンの良好な収束挙動を維持しつつ、最先端のLLM圧縮パイプライン下での圧縮後のモデル品質を向上させることを示す。
関連論文リスト
- Muon+: Towards Better Muon via One Additional Normalization Step [18.816463168231618]
我々は,ミュオンの簡易かつ効果的な拡張,すなわちミュオン+を提案する。
モデルスケールとアーキテクチャの広範な事前学習実験を通じて,Muon+の有効性を実証する。
論文 参考訳(メタデータ) (2026-02-25T04:04:00Z) - Muon in Associative Memory Learning: Training Dynamics and Scaling Laws [23.350512542598803]
We study Muon in a linear associative memory model with softmax search and ahierarchical frequency spectrum over query-apwer pairs。
我々は、Muonがこの不均衡を緩和し、より速く、より均一な進歩をもたらすことを示す。
論文 参考訳(メタデータ) (2026-02-05T14:49:40Z) - Variance-Adaptive Muon: Accelerating LLM Pretraining with NSR-Modulated and Variance-Scaled Momentum [19.385264518362472]
大規模言語モデル(LLM)は、多種多様な自然言語処理(NLP)タスク間の競合性能を達成する。
モーメントに分散適応正規化を適用するMuon-NSRとMuon-VSの2つの変種を提案する。
GPT-2 と LLaMA プレトレーニング実験により,提案手法は収束を加速し,AdamW と Muon の両ベースラインの競合よりも連続的に検証損失を減少させることを示した。
論文 参考訳(メタデータ) (2026-01-21T02:41:56Z) - Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs [80.72350166388601]
Nemotron Elasticは推論指向のLLMを構築するためのフレームワークである。
ネストしたサブモデルを単一の親モデルに組み込む。
これらのサブモデルはそれぞれ、親モデルと重みを共有し、デプロイ中にゼロショットを抽出できる。
論文 参考訳(メタデータ) (2025-11-20T18:59:21Z) - NorMuon: Making Muon more efficient and scalable [71.49702449498085]
我々はアダムの後継としてノームーンを提案する。
我々は、NorMuonがAdamとMuonの両方を一貫して上回り、Adamより21.74%、Muonより11.31%改善していることを示す。
論文 参考訳(メタデータ) (2025-10-07T01:13:41Z) - REG: A Regularization Optimizer for Robust Training Dynamics [24.850151895583494]
RACS(Row-and-Column-Scaling)オペレータは、更新ステップをより劇的な方法で正規化することにより、既存のトレーニングダイナミクスの実装が簡単になり、互換性が向上する。
我々は,我々のREGがAdamWよりも優れた性能と安定性を達成できることを実証すると同時に,AdamWトレーニングパラダイムとの整合性も維持する。
論文 参考訳(メタデータ) (2025-10-04T06:05:57Z) - AdaMuon: Adaptive Muon Optimizer [11.281916426508216]
AdaMuonは、要素の適応性と、大規模なニューラルネットワークトレーニングのための直交更新を組み合わせる。
AdaMuonは安定性を維持しているが、大規模シナリオではAdamを40%以上のトレーニング効率で上回ることができる。
論文 参考訳(メタデータ) (2025-07-15T05:49:37Z) - Minitron-SSM: Efficient Hybrid Language Model Compression through Group-Aware SSM Pruning [76.88243649182886]
注意と状態空間モデル(SSM)を組み合わせたハイブリッドアーキテクチャは、最先端の精度と実行時のパフォーマンスを達成する。
近年の研究では、アテンションのみのモデルに圧縮と蒸留を適用することで、トレーニングコストのごく一部でより小さく、より正確なモデルが得られることが示されている。
本稿では,SSMブロックの構造的整合性とそのシーケンスモデリング機能を維持するグループ対応プルーニング戦略を提案する。
論文 参考訳(メタデータ) (2025-04-15T17:26:29Z) - Muon is Scalable for LLM Training [50.68746986439438]
MoE(Mixture-of-Expert)モデルであるMoonlightを紹介する。
我々のモデルは現在のフロンティアを改善し、以前のモデルに比べてトレーニングのFLOPをはるかに少なくして、より良いパフォーマンスを実現しています。
メモリ最適化と通信効率のよい分散 Muon 実装をオープンソースとして公開しています。
論文 参考訳(メタデータ) (2025-02-24T09:12:29Z) - Beyond Pretrained Features: Noisy Image Modeling Provides Adversarial
Defense [52.66971714830943]
マスク付き画像モデリング(MIM)は、自己教師付き視覚表現学習のフレームワークとして普及している。
本稿では,この強力な自己教師型学習パラダイムが,下流の分類器に対して対角的ロバスト性を提供する方法について検討する。
本稿では,デノナイジングのためのデコーダを用いて,デノナイジングのための対角防御手法を提案する。
論文 参考訳(メタデータ) (2023-02-02T12:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。