論文の概要: Taming Momentum: Rethinking Optimizer States Through Low-Rank Approximation
- arxiv url: http://arxiv.org/abs/2602.24283v1
- Date: Fri, 27 Feb 2026 18:57:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.57515
- Title: Taming Momentum: Rethinking Optimizer States Through Low-Rank Approximation
- Title(参考訳): Taming Momentum: 低ランク近似による最適化状態の再考
- Authors: Zhengbo Wang, Jian Liang, Ran He, Zilei Wang, Tieniu Tan,
- Abstract要約: 効率的な事前学習のための新しい低ランクシステムであるLoRA-Preを紹介する。
LoRA-Pre オンライン線形学習器内のコンパクトな低ランク部分空間に運動量行列を分解する。
Llama アーキテクチャファミリーのモデルを事前学習することで,LoRA-Preの有効性を実証的に検証する。
- 参考スコア(独自算出の注目度): 85.89510825889168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern optimizers like Adam and Muon are central to training large language models, but their reliance on first- and second-order momenta introduces significant memory overhead, which constrains scalability and computational efficiency. In this work, we reframe the exponential moving average (EMA) used in these momenta as the training of a linear regressor via online gradient flow. Building on this equivalence, we introduce LoRA-Pre, a novel low-rank optimizer designed for efficient pre-training. Specifically, LoRA-Pre reduces the optimizer's memory footprint by decomposing the full momentum matrix into a compact low-rank subspace within the online linear learner, thereby maintaining optimization performance while improving memory efficiency. We empirically validate LoRA-Pre's efficacy by pre-training models from the Llama architecture family, scaling from 60M to 1B parameters. LoRA-Pre achieves the highest performance across all model sizes. Notably, LoRA-Pre demonstrates remarkable rank efficiency, achieving comparable or superior results using only 1/8 the rank of baseline methods. Beyond pre-training, we evaluate LoRA-Pre's effectiveness in fine-tuning scenarios. With the same rank, LoRA-Pre consistently outperforms all efficient fine-tuning baselines. Specifically, compared to standard LoRA, LoRA-Pre achieves substantial improvements of 3.14 points on Llama-3.1-8B and 6.17 points on Llama-2-7B, validating our approach's effectiveness across both pre-training and fine-tuning paradigms. Our code is publicly available at https://github.com/mrflogs/LoRA-Pre.
- Abstract(参考訳): Adam氏やMuon氏のような現代のオプティマイザは、大規模な言語モデルのトレーニングの中心であるが、一階と二階のモータへの依存は、スケーラビリティと計算効率を制約する大きなメモリオーバーヘッドをもたらす。
本研究では,オンライン勾配流による線形回帰器のトレーニングとして,これらの瞬間に使用される指数移動平均(EMA)を再構成する。
この等価性に基づいて、効率的な事前学習用に設計された新しい低ランクオプティマイザであるLoRA-Preを導入する。
特に、LoRA-Preは、全運動量行列をオンライン線形学習器内のコンパクトな低ランク部分空間に分解し、メモリ効率を向上しながら最適化性能を維持することにより、オプティマイザのメモリフットプリントを削減する。
Llama アーキテクチャファミリーからの事前学習モデルによる LoRA-Pre の有効性を実証的に検証し,60M から 1B のパラメータに拡張した。
LoRA-Preは、すべてのモデルサイズで最高のパフォーマンスを達成する。
特に、LoRA-Preは目覚ましいランク効率を示し、基準法のランクの1/8だけを用いて、同等または優れた結果が得られる。
事前学習の他に、微調整シナリオにおけるLoRA-Preの有効性を評価する。
同じランクで、LoRA-Preは全ての効率的な微調整ベースラインを一貫して上回っている。
特に、LoRA-Preは標準のLoRAと比較して、Llama-3.1-8Bで3.14点、Llama-2-7Bで6.17点を大幅に改善し、事前学習と微調整の両方のパラダイムでアプローチの有効性を検証する。
私たちのコードはhttps://github.com/mrflogs/LoRA-Preで公開されています。
関連論文リスト
- Beyond SGD, Without SVD: Proximal Subspace Iteration LoRA with Diagonal Fractional K-FAC [50.36542772932594]
Low-Rank Adaptation (LoRA) は、凍結重量の上の低ランク更新を学習することで、大きなモデルを微調整する。
本研究では,ローランクプロジェクション(SVDLoRA)とローラファインチューニング(LoRAファインタニング)のフルステップでのトレーニングのギャップに対処する。
勾配降下のギャップを埋めるメモリ効率の良いサブルーチンであるLoRSumを提案する。
論文 参考訳(メタデータ) (2026-02-18T13:41:41Z) - Faster Than SVD, Smarter Than SGD: The OPLoRA Alternating Update [50.36542772932594]
Low-Rank Adaptation (LoRA) は、凍結重量の上の低ランク更新を学習することで、大きなモデルを微調整する。
ローランクプロジェクションによる完全なトレーニング(SVDLoRA)とLoRAファインチューニングの間にはまだギャップがあり、LoRAのステップをさらに改善できることを示している。
論文 参考訳(メタデータ) (2025-09-24T10:32:50Z) - LoRA Is Slower Than You Think [0.0]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)において最も広く使われている技術の一つである。
少数のトレーニング可能な低ランク重量行列を導入することで、LoRAは更新される必要のあるパラメータの数を大幅に削減する。
LoRAは、すべてのモデルアーキテクチャやトレーニング設定に対して、一貫してスピード改善を提供していません。
論文 参考訳(メタデータ) (2025-07-06T08:36:43Z) - Flat-LoRA: Low-Rank Adaptation over a Flat Loss Landscape [52.98187034726091]
フルパラメータ空間の平坦領域に位置する低ランク適応を同定することを目的としたFlat-LoRAを提案する。
また、Flat-LoRAはドメイン内とドメイン外の両方の一般化を改善していることを示す。
論文 参考訳(メタデータ) (2024-09-22T11:24:10Z) - LoRA-Pro: Are Low-Rank Adapters Properly Optimized? [121.0693322732454]
LoRAとしても知られる低ランク適応は、基礎モデルのパラメータ効率の細かい調整のための顕著な手法として登場した。
計算効率にもかかわらず、LoRAは完全な微調整に比べて性能が劣っている。
低ランク行列の勾配を戦略的に調整することでLoRAの性能を向上させる手法であるLoRA-Proを導入する。
論文 参考訳(メタデータ) (2024-07-25T17:57:12Z) - LoRA-GA: Low-Rank Adaptation with Gradient Approximation [5.685201910521295]
微調整された大規模事前訓練モデルは、計算とメモリコストの点で極めて高価である。
LoRAは、パラメータが著しく少ない補助的な低ランクモデルを微調整することで、コスト効率のよい代替手段を提供する。
LoRAは完全な微調整に比べてかなり遅い速度で収束し、全体的な計算能力が向上し、しばしばテスト性能が悪化する。
論文 参考訳(メタデータ) (2024-07-06T08:37:21Z) - Run LoRA Run: Faster and Lighter LoRA Implementations [50.347242693025336]
LoRAは、線形層に低ランクアダプタを導入することにより、ニューラルネットワーク内のトレーニング可能なパラメータの数を減らすテクニックである。
本稿では,LoRAの効率的な実装のためのRunLoRAフレームワークを提案する。
実験は、言語モデリングネットワーク上で最大28%のスピードアップを示す。
論文 参考訳(メタデータ) (2023-12-06T10:54:34Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。