論文の概要: Turbo-Muon: Accelerating Orthogonality-Based Optimization with Pre-Conditioning
- arxiv url: http://arxiv.org/abs/2512.04632v1
- Date: Thu, 04 Dec 2025 10:06:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.105407
- Title: Turbo-Muon: Accelerating Orthogonality-Based Optimization with Pre-Conditioning
- Title(参考訳): Turbo-Muon: 事前設定による直交性に基づく最適化の高速化
- Authors: Thibaut Boissin, Thomas Massena, Franck Mamalet, Mathieu Serrurier,
- Abstract要約: 本稿では,Newton-Schulz収束を加速し,計算コストを削減するプレコンディショニング手法を提案する。
我々の公開実装はニュートン・シュルツ近似の2.8倍の高速化を達成する。
- 参考スコア(独自算出の注目度): 7.966927192439667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Orthogonality-based optimizers, such as Muon, have recently shown strong performance across large-scale training and community-driven efficiency challenges. However, these methods rely on a costly gradient orthogonalization step. Even efficient iterative approximations such as Newton-Schulz remain expensive, typically requiring dozens of matrix multiplications to converge. We introduce a preconditioning procedure that accelerates Newton-Schulz convergence and reduces its computational cost. We evaluate its impact and show that the overhead of our preconditioning can be made negligible. Furthermore, the faster convergence it enables allows us to remove one iteration out of the usual five without degrading approximation quality. Our publicly available implementation achieves up to a 2.8x speedup in the Newton-Schulz approximation. We also show that this has a direct impact on end-to-end training runtime with 5-10% improvement in realistic training scenarios across two efficiency-focused tasks. On challenging language or vision tasks, we validate that our method maintains equal or superior model performance while improving runtime. Crucially, these improvements require no hyperparameter tuning and can be adopted as a simple drop-in replacement. Our code is publicly available on github.
- Abstract(参考訳): Muonのような直交性に基づくオプティマイザは、最近、大規模なトレーニングとコミュニティ主導の効率上の課題に対して、強いパフォーマンスを示している。
しかし、これらの手法はコストのかかる勾配直交化ステップに依存している。
ニュートン=シュルツのような効率的な反復近似は高価であり、通常は収束するために数十の行列乗法を必要とする。
本稿では,Newton-Schulz収束を加速し,計算コストを削減するプレコンディショニング手法を提案する。
我々は、その影響を評価し、プレコンディショニングのオーバーヘッドを無視できることを示す。
さらに、より高速な収束により、近似品質を低下させることなく、通常の5つのイテレーションから1つのイテレーションを削除できます。
我々の公開実装はニュートン・シュルツ近似の2.8倍の高速化を達成する。
また、これはエンドツーエンドのトレーニングランタイムに直接的な影響を与えており、2つの効率を重視したタスクで現実的なトレーニングシナリオを5~10%改善していることも示しています。
難易度の高い言語や視覚タスクでは,実行時の改善とともに,我々の手法が同等あるいは優れたモデル性能を維持していることを確認した。
重要な点として、これらの改善はハイパーパラメータチューニングを必要としないため、単純なドロップイン代替として採用することができる。
私たちのコードはgithubで公開されています。
関連論文リスト
- Gradient-Free Training of Quantized Neural Networks [9.348959582516438]
ニューラルネットワークのトレーニングには、かなりの計算資源とエネルギーが必要である。
混合精度と量子化学習はビット使用量を減少させるが、計算コストの高い勾配に基づく最適化に大きく依存している。
我々は、勾配を完全に排除するパラダイムシフトを提案する。
論文 参考訳(メタデータ) (2024-10-13T05:38:39Z) - Gradient descent with generalized Newton's method [8.885727065823156]
本稿では,SGDやAdamなどのトピックに適用可能なヘシアンインフォームドアプローチを提案する。
本手法は,収束を加速する学習率を自動的に動的に選択する。
実際,本手法は計算オーバーヘッドがほとんどゼロのフォワードパスのみを必要とするため,実装が容易である。
論文 参考訳(メタデータ) (2024-07-03T03:01:43Z) - Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - A Computationally Efficient Sparsified Online Newton Method [48.78646010774149]
Sparsified Online Newton (SONew) はメモリ効率の良い2次アルゴリズムである。
最大で30%の高速化,3.4%の妥当性向上,80%のトレーニング損失の相対的改善を実現しています。
論文 参考訳(メタデータ) (2023-11-16T18:44:22Z) - Towards Compute-Optimal Transfer Learning [82.88829463290041]
我々は、事前訓練されたモデルのゼロショット構造化プルーニングにより、性能を最小限に抑えて計算効率を向上させることができると主張している。
その結果,事前訓練されたモデルの畳み込み畳み込みフィルタは,低計算条件下で20%以上の性能向上をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2023-04-25T21:49:09Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - Domain Adversarial Training: A Game Perspective [80.3821370633883]
本稿では,ゲーム理論の観点から,ドメイン・アドバイザ・トレーニングにおける最適解を定義する。
ドメイン・アドバイザリ・トレーニングにおける降下は、グラデーションの収束保証に違反し、しばしば転送性能を損なう可能性があることを示す。
実装は簡単で、追加のパラメータが不要で、あらゆるドメイン・アドバイザリ・フレームワークにプラグインすることができます。
論文 参考訳(メタデータ) (2022-02-10T22:17:30Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。