論文の概要: Can Muon Fine-tune Adam-Pretrained Models?
- arxiv url: http://arxiv.org/abs/2605.10468v1
- Date: Mon, 11 May 2026 12:34:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.808922
- Title: Can Muon Fine-tune Adam-Pretrained Models?
- Title(参考訳): ムーンファインチューン・アダム予知モデルは可能か?
- Authors: Xingyu Qu, Peigeng Huang, Samuel Horvath,
- Abstract要約: ほとんどのオープンモデルはAdamで事前訓練されており、微調整のためにミュオンに鼻で切り替えると、ミスマッチによって性能が劣化する。
我々は、ミスマッチが事前訓練された知識を妨害し、この破壊が更新強度とともにスケールする証拠を提供する。
LoRAは、言語やビジョンタスク全体にわたって、完全な微調整の下で観察されるAdamとMuonのパフォーマンスギャップを減らします。
- 参考スコア(独自算出の注目度): 0.5735035463793009
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Muon has emerged as an efficient alternative to Adam for pretraining, yet remains underused for fine-tuning. A key obstacle is that most open models are pretrained with Adam, and naively switching to Muon for fine-tuning leads to degraded performance due to an optimizer mismatch. We investigate this mismatch through controlled experiments and relate it to the distinct implicit biases of Adam and Muon. We provide evidence that the mismatch disrupts pretrained knowledge, and that this disruption scales with update strength. This leads us to hypothesize that constraining updates should mitigate the mismatch. We validate this with LoRA: across language and vision tasks, LoRA reduces the performance gap between Adam and Muon observed under full fine-tuning. Studies on LoRA rank, catastrophic forgetting, and LoRA variants further confirm that mismatch severity correlates with update strength. These results shed light on how optimizer mismatch affects fine-tuning and how it can be mitigated. Our code is available at https://github.com/XingyuQu/muon-finetune.
- Abstract(参考訳): MuonはAdamの事前訓練に効果的な代替品として登場したが、微調整には未熟である。
キーとなる障害は、ほとんどのオープンモデルがAdamで事前訓練されていることだ。
制御された実験を通してこのミスマッチを調査し、Adam と Muon の明確な暗黙バイアスに関連付ける。
我々は、ミスマッチが事前訓練された知識を妨害し、この破壊が更新強度とともにスケールする証拠を提供する。
これにより、制約のある更新がミスマッチを軽減するべきだという仮説を立てることができます。
LoRAは、言語やビジョンタスク全体にわたって、完全な微調整の下で観察されるAdamとMuonのパフォーマンスギャップを減らします。
LoRAのランク、破滅的な忘れ方、LoRAの変異についての研究は、ミスマッチの重症度が更新強度と相関していることをさらに確認している。
これらの結果は、オプティマイザのミスマッチが微調整に与える影響と、それを緩和する方法について光を当てた。
私たちのコードはhttps://github.com/XingyuQu/muon-finetune.comで利用可能です。
関連論文リスト
- Muon Outperforms Adam in Tail-End Associative Memory Learning [118.98991042050532]
機能埋め込みにかかわらず,Muonはクラス間のバランスの取れた学習を一貫して達成している。
我々の経験的観察と理論的分析により、ムオンの核となる利点が明らかとなり、その更新規則は線形連想記憶の外積構造と一致している。
論文 参考訳(メタデータ) (2025-09-30T10:04:08Z) - Conda: Column-Normalized Adam for Training Large Language Models Faster [70.66067959375748]
Column-Normalized Adam (Conda)は、大規模言語モデル(LLM)に対する新しいアプローチである。
Condaはサブスペースに更新を投影し、投影された勾配に基づいてカラムワイズ第2モーメント正規化を適用する。
LLaMAとGPT-2シリーズの実験では、コンダはトレーニング前のAdamW、Muon、その他のベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-09-29T02:58:19Z) - Muon is Scalable for LLM Training [50.68746986439438]
MoE(Mixture-of-Expert)モデルであるMoonlightを紹介する。
我々のモデルは現在のフロンティアを改善し、以前のモデルに比べてトレーニングのFLOPをはるかに少なくして、より良いパフォーマンスを実現しています。
メモリ最適化と通信効率のよい分散 Muon 実装をオープンソースとして公開しています。
論文 参考訳(メタデータ) (2025-02-24T09:12:29Z) - Adam on Local Time: Addressing Nonstationarity in RL with Relative Adam Timesteps [65.64965527170156]
我々は、強化学習に広く用いられているAdam optimiserに適応する。
我々は、Adam-Relがエポック内で局所的なタイムステップを使用しており、基本的にターゲット変更後のAdamのタイムステップを0にリセットしていることを示す。
次に,RLにおいて勾配ノルムの増加が生じることを示すとともに,理論モデルと観測データとの差について検討する。
論文 参考訳(メタデータ) (2024-12-22T18:01:08Z) - BAdam: A Memory Efficient Full Parameter Optimization Method for Large Language Models [4.265831047857601]
BAdamは、ブロック座標降下(BCD)フレームワークをAdamの更新ルールで活用する最適化手法である。
BAdamは、大きな言語モデルの完全なパラメータ微調整に対するメモリ効率のよいアプローチを提供する。
私たちのコードは、任意のPyTorchベースのシステムに簡単に統合できます。
論文 参考訳(メタデータ) (2024-04-03T15:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。