論文の概要: Drop-Muon: Update Less, Converge Faster
- arxiv url: http://arxiv.org/abs/2510.02239v1
- Date: Thu, 02 Oct 2025 17:28:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.250146
- Title: Drop-Muon: Update Less, Converge Faster
- Title(参考訳): Drop-Muon: アップデートが減り、コンバージが速くなった
- Authors: Kaja Gruntkowska, Yassine Maziane, Zheng Qu, Peter Richtárik,
- Abstract要約: 完全なネットワーク更新は、理論上も実際上も、基本的に準最適であることを示す。
非ユークリッドランダム化プログレッシブトレーニング-Drop-Muonを導入する。
Drop-Muon がフルネットワーク Muon を一貫して上回っていることを実証的に実証する。
- 参考スコア(独自算出の注目度): 45.568312522631345
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Conventional wisdom in deep learning optimization dictates updating all layers at every step-a principle followed by all recent state-of-the-art optimizers such as Muon. In this work, we challenge this assumption, showing that full-network updates can be fundamentally suboptimal, both in theory and in practice. We introduce a non-Euclidean Randomized Progressive Training method-Drop-Muon-a simple yet powerful framework that updates only a subset of layers per step according to a randomized schedule, combining the efficiency of progressive training with layer-specific non-Euclidean updates for top-tier performance. We provide rigorous convergence guarantees under both layer-wise smoothness and layer-wise $(L^0, L^1)$-smoothness, covering deterministic and stochastic gradient settings, marking the first such results for progressive training in the stochastic and non-smooth regime. Our cost analysis further reveals that full-network updates are not optimal unless a very specific relationship between layer smoothness constants holds. Through controlled CNN experiments, we empirically demonstrate that Drop-Muon consistently outperforms full-network Muon, achieving the same accuracy up to $1.4\times$ faster in wall-clock time. Together, our results suggest a shift in how large-scale models can be efficiently trained, challenging the status quo and offering a highly efficient, theoretically grounded alternative to full-network updates.
- Abstract(参考訳): ディープラーニング最適化における従来の知恵は、すべてのステップAの原則ですべてのレイヤを更新し、その後にMuonのような最新の最先端のオプティマイザが続く。
本研究では、この仮定に挑戦し、理論と実際の両方において、完全なネットワーク更新が基本的に最適であることを示す。
非ユークリッドランダム化プログレッシブトレーニング手法であるDrop-Muonを導入し、ランダム化スケジュールに従ってステップ毎のレイヤサブセットだけを更新し、プログレッシブトレーニングの効率と、階層固有の非ユークリッドアップデートを組み合わせ、トップレベルのパフォーマンスを向上する。
確率的・確率的勾配設定を網羅し, 確率的・非滑らかな体制下での漸進的トレーニングにおいて, 厳密な収束保証を, 層次滑らか度と層次$(L^0, L^1)$-smoothnessの両方で提供する。
我々のコスト分析により、層間スムーズ性定数が成立しない限り、完全なネットワーク更新が最適でないことが判明した。
制御されたCNN実験を通じて、Drop-MuonはフルネットワークのMuonより一貫して優れており、壁時計時間で最大1.4\times$の精度を実現していることを実証的に実証した。
この結果から,大規模モデルを効率的にトレーニングし,現状に挑戦し,ネットワーク全体の更新に対して極めて効率的で理論的に根拠のある代替手段を提供することが示唆された。
関連論文リスト
- A Stable Whitening Optimizer for Efficient Neural Network Training [101.89246340672246]
アルゴリズムのシャンプー系をベースとして,3つの重要な問題を同定・緩和し,SPlus法を提案する。
まず,行列逆が長期にわたってキャッシュされる場合,素早いシャンプーは分岐しがちであることがわかった。
第二に、ネットワーク幅をまたいで学習率の伝達を可能にするために、形状認識スケーリングを適用する。
第3に,高い学習率によってパラメータノイズが大きくなり,より高速な学習をブロックする簡単な反復学習方式を提案する。
論文 参考訳(メタデータ) (2025-06-08T18:43:31Z) - Beyond Freezing: Sparse Tuning Enhances Plasticity in Continual Learning with Pre-Trained Models [10.904981532789824]
事前訓練されたモデルによる継続的な学習は、シーケンシャルなタスクにまたがる効率的な適応を大いに約束する。
既存のアプローチはPTMを凍結し、プロンプトやアダプタのような補助モジュールに依存している。
MIST(Mutual Information-Guided Sparse Tuning)は,PTMパラメータのサブセットを選択的に更新するプラグイン・アンド・プレイ方式である。
論文 参考訳(メタデータ) (2025-05-26T13:09:25Z) - Leveraging Stochastic Depth Training for Adaptive Inference [1.996143466020199]
本稿では,ゼロオーバーヘッド,単一モデル,時間予測可能な推論を用いた適応推論の簡易かつ効果的な代替手法を提案する。
従来のResNetと比較して、精度0.71%の低下で最大2倍の効率向上を実現した。
論文 参考訳(メタデータ) (2025-05-23T08:36:56Z) - Less is More: Selective Layer Finetuning with SubTuning [26.43027780266698]
事前訓練されたモデルを微調整することは、ニューラルネットワークを新しいタスクで訓練するための標準的なアプローチとなり、高速な収束と性能の向上をもたらす。
本研究では、ネットワークのすべての重みを微調整する代わりに、慎重に選択された層のサブセットのみを訓練し、残りの重みを初期(事前の)値で凍結する、代替的な微調整法について検討する。
実験結果から,emphsubsetファインタニング(あるいはSubTuning)がモデルの完全ファインタニングに匹敵する精度を達成し,トレーニングデータが少ない場合のフルファインタニングの性能を超越することを示した。
論文 参考訳(メタデータ) (2023-02-13T13:38:46Z) - A Stable, Fast, and Fully Automatic Learning Algorithm for Predictive
Coding Networks [65.34977803841007]
予測符号化ネットワークは、ベイズ統計学と神経科学の両方にルーツを持つ神経科学にインスパイアされたモデルである。
シナプス重みに対する更新規則の時間的スケジュールを変更するだけで、元の規則よりもずっと効率的で安定したアルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2022-11-16T00:11:04Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Faster Meta Update Strategy for Noise-Robust Deep Learning [62.08964100618873]
我々は,メタグラデーションの最も高価なステップをより高速なレイヤワイズ近似に置き換えるために,新しいファMUS(Faster Meta Update Strategy)を導入する。
本手法は,同等あるいはさらに優れた一般化性能を維持しつつ,トレーニング時間の3分の2を節約できることを示す。
論文 参考訳(メタデータ) (2021-04-30T16:19:07Z) - Dynamic Hierarchical Mimicking Towards Consistent Optimization
Objectives [73.15276998621582]
一般化能力を高めたCNN訓練を推進するための汎用的特徴学習機構を提案する。
DSNに部分的にインスパイアされた私たちは、ニューラルネットワークの中間層から微妙に設計されたサイドブランチをフォークしました。
カテゴリ認識タスクとインスタンス認識タスクの両方の実験により,提案手法の大幅な改善が示された。
論文 参考訳(メタデータ) (2020-03-24T09:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。