論文の概要: Dion2: A Simple Method to Shrink Matrix in Muon
- arxiv url: http://arxiv.org/abs/2512.16928v1
- Date: Mon, 01 Dec 2025 16:58:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-29 00:37:57.032551
- Title: Dion2: A Simple Method to Shrink Matrix in Muon
- Title(参考訳): Dion2: Muon で Matrix を縮小する簡単な方法
- Authors: Kwangjun Ahn, Noah Amsel, John Langford,
- Abstract要約: Dion2 は,Muon の反復に係わる行列を,従来の手法に比べてはるかに単純な方法で縮小する手法である。
高いレベルでは、Dion2は各行または列の分数を選択し、それらのみを正規化する。
- 参考スコア(独自算出の注目度): 19.766325230655173
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Muon optimizer enjoys strong empirical performance and theoretical grounding. However, the super-linear cost of its orthonormalization step introduces increasing overhead with scale. To alleviate this cost, several works have attempted to reduce the size of the matrix entering the orthonormalization step. We introduce Dion2, a much simpler method for shrinking the matrix involved in Muon's computation compared to prior approaches. At a high level, Dion2 selects a fraction of rows or columns at each iteration and orthonormalizes only those. This sampling procedure makes the update sparse, reducing both computation and communication costs which in turn improves the scalability of Muon.
- Abstract(参考訳): Muonオプティマイザは、強い経験的パフォーマンスと理論的な接地を楽しむ。
しかし、正則化ステップの超線形コストは、スケールによるオーバーヘッドの増加をもたらす。
このコストを軽減するために、いくつかの研究が正則化段階に入る行列のサイズを減らそうと試みている。
我々は,Muonの計算に係わる行列を,従来の手法に比べてはるかに単純な手法であるDion2を紹介する。
高いレベルでは、Dion2は各イテレーションで行や列のごく一部を選択し、それらのみを正規化する。
このサンプリング手順により、更新はスパース化され、計算コストと通信コストの両方が削減され、ムーンのスケーラビリティが向上する。
関連論文リスト
- Muon is Provably Faster with Momentum Variance Reduction [55.388203260208485]
近年の実証研究により、線形線形オラクル(LMO)に基づく深層学習が特に選択された非ユーデアンよりも優れていることが示された。
アダム型学習法は,大規模言語モデルの最小化よりも優れている。
論文 参考訳(メタデータ) (2025-12-18T14:38:39Z) - MuonBP: Faster Muon via Block-Periodic Orthogonalization [24.232069944820513]
ベースラインからMuonBPへの学習率の調整方法を示し、このアルゴリズムの保証を与える。
8方向テンソルテンソルとZeROによる8Bモデルのトレーニングでは、ムオンBPは8%のムオンを達成でき、性能は劣化しない。
論文 参考訳(メタデータ) (2025-10-19T19:56:05Z) - NorMuon: Making Muon more efficient and scalable [71.49702449498085]
我々はアダムの後継としてノームーンを提案する。
我々は、NorMuonがAdamとMuonの両方を一貫して上回り、Adamより21.74%、Muonより11.31%改善していることを示す。
論文 参考訳(メタデータ) (2025-10-07T01:13:41Z) - Inertial Quadratic Majorization Minimization with Application to Kernel Regularized Learning [1.0282274843007797]
外部補間(QMME)フレームワークを導入し,その逐次収束特性を確立する。
実効性を示すために,大規模カーネル正規化学習問題にQMMEを適用した。
論文 参考訳(メタデータ) (2025-07-06T05:17:28Z) - Orthogonal Finetuning Made Scalable [92.34573849209238]
OFT(Orthogonal Finetuning)は、壊滅的な忘れ込みを防止しつつ、パラメータ効率の高い適応を提供するが、実行時とメモリの要求が高いため、実際のデプロイメントが制限される。
ここでは,OFTの計算ボトルネックを重み中心の実装とみなす。
本稿では,行列ベクトル乗法(行列フリー計算)を用いて,計算コストを2次に削減する入力中心の変換法OFTv2を提案する。
これらの変更により、OFTv2は最大10倍の高速トレーニングと3倍のGPUメモリ使用率を達成することができる。
論文 参考訳(メタデータ) (2025-06-24T17:59:49Z) - Iterative Orthogonalization Scaling Laws [0.0]
ムーンは、現在見られるアダム行列の代替として、最近になって多くの注目を集めている。
本稿では, このスケーリング挙動を理論的, 実験的にランダム行列上で示すが, どうすればよいのかは示唆しない。
論文 参考訳(メタデータ) (2025-05-06T22:34:55Z) - Dion: Distributed Orthonormalized Updates [27.66769374729482]
Dion(Distributed Orthonormalization)はスケーラブルで効率的な更新ルールである。
ニュートン=シュルツの繰り返しをモーメントバッファー上のアモータイズされたパワーの繰り返しに置き換える。
エラーフィードバックを伴うランク制限パラメータにより、品質と大幅なコスト削減のバランスをとる低ランクな更新が可能になる。
論文 参考訳(メタデータ) (2025-04-07T17:49:37Z) - Muon is Scalable for LLM Training [50.68746986439438]
MoE(Mixture-of-Expert)モデルであるMoonlightを紹介する。
我々のモデルは現在のフロンティアを改善し、以前のモデルに比べてトレーニングのFLOPをはるかに少なくして、より良いパフォーマンスを実現しています。
メモリ最適化と通信効率のよい分散 Muon 実装をオープンソースとして公開しています。
論文 参考訳(メタデータ) (2025-02-24T09:12:29Z) - Monarch: Expressive Structured Matrices for Efficient and Accurate
Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。
計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。
ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文 参考訳(メタデータ) (2022-04-01T17:37:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。