論文の概要: Unbiased Gradient Low-Rank Projection
- arxiv url: http://arxiv.org/abs/2510.17802v1
- Date: Mon, 20 Oct 2025 17:59:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.556475
- Title: Unbiased Gradient Low-Rank Projection
- Title(参考訳): 無バイアス勾配低ランク射影
- Authors: Rui Pan, Yang Luo, Yuxing Liu, Yang You, Tong Zhang,
- Abstract要約: 一般的な戦略としては、GaLoreが代表的な例として、投射された状態のみを格納する低ランク射影の勾配がある。
本稿では,低ランクプロジェクション機構のデバイアス化のためのレイヤワイズサンプリング手法について検討する。
パラダイムのインスタンス化により、GaLoreのメカニズムとMuonアルゴリズムに基づいて構築された、新しく偏りのない低ランク最適化手法が生まれる。
- 参考スコア(独自算出の注目度): 32.57081286181632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Memory-efficient optimization is critical for training increasingly large language models (LLMs). A popular strategy involves gradient low-rank projection, storing only the projected optimizer states, with GaLore being a representative example. However, a significant drawback of many such methods is their lack of convergence guarantees, as various low-rank projection approaches introduce inherent biases relative to the original optimization algorithms, which contribute to performance gaps compared to full-parameter training. Aiming to tackle this problem, this paper investigates the layerwise sampling technique for debiasing low-rank projection mechanisms. In particular, an instantiation of the paradigm gives rise to a novel and unbiased low-rank optimization method built upon GaLore's mechanism and the Muon algorithm, named GaLore Unbiased with Muon (GUM). We theoretically prove our method matches the convergence guarantees of the base Muon algorithm while preserving the memory efficiency of low-rank techniques. Empirical experiments on LLM fine-tuning and pretraining also demonstrate non-trivial improvements over GaLore and even better performance than full-parameter training. Further investigation shows that the improvement of this technique comes from a more uniform distribution of knowledge inside layers, leading to more efficient utilization of the model parameter space and better memorization.
- Abstract(参考訳): メモリ効率の最適化は、ますます大きな言語モデル(LLM)のトレーニングに不可欠である。
一般的な戦略は低ランクプロジェクションの勾配であり、投影されたオプティマイザ状態のみを格納し、GaLoreが代表的な例である。
しかし、これらの手法の重大な欠点は収束保証の欠如であり、様々な低ランク射影手法が元の最適化アルゴリズムと比較して固有のバイアスを導入し、フルパラメータトレーニングと比較してパフォーマンスのギャップに寄与する。
そこで本研究では,低ランクプロジェクション機構のデバイアス化のためのレイヤワイズサンプリング手法について検討する。
特に、このパラダイムのインスタンス化は、GaLoreのメカニズムとMuonアルゴリズムをベースに構築された新しい非バイアスの低ランク最適化法(GaLore Unbiased with Muon (GUM))を生み出している。
提案手法は,低ランク手法のメモリ効率を保ちながら,基本Muonアルゴリズムの収束保証と一致することを理論的に証明する。
LLMの微調整と事前訓練に関する実証実験は、GaLoreに対する非自明な改善を示し、フルパラメータトレーニングよりもパフォーマンスが向上した。
さらなる調査により、この手法の改善は、層内の知識のより均一な分布から来ており、モデルパラメータ空間のより効率的な利用とメモリ化の改善につながることが示されている。
関連論文リスト
- Low-rank Momentum Factorization for Memory Efficient Training [13.464518325870444]
Momentum Factorized (MoFaSGD) は、1次運動量の動的に更新された低ランクSVD表現を維持している。
大規模な言語モデルベンチマークにおけるMoFaSGDの有効性を実証し、メモリ削減(例えばLoRA)と性能の競合的なトレードオフを実現する。
論文 参考訳(メタデータ) (2025-07-10T18:04:52Z) - Memory-Efficient LLM Training by Various-Grained Low-Rank Projection of Gradients [36.31328244962629]
低ランク勾配投影(LoRP)は、メモリ効率の良い微調整のための有望な解である。
既存のLoRP法では、勾配行列の各行をデフォルトの射影単位として扱い、射影の粒度の役割は未解明のままである。
本稿では、メモリ効率と性能のトレードオフを制御するための追加の自由度を導入することで、低ランク勾配予測を拡張する新しいフレームワークVLoRPを提案する。
論文 参考訳(メタデータ) (2025-05-03T08:50:14Z) - LORENZA: Enhancing Generalization in Low-Rank Gradient LLM Training via Efficient Zeroth-Order Adaptive SAM [13.180761892449736]
大規模言語モデル(LLM)のためのロバストパラメータ効率細調整法(PEFT)について検討する。
我々はAdam と Sharpness-Aware Minimization (SAM) を組み合わせた AdaZo-SAM という,計算効率のよい新しいフレームワークを提案する。
また,AdaZo-SAMのメモリ効率向上版であるLORENZAという低ランク勾配最適化手法を設計した。
論文 参考訳(メタデータ) (2025-02-26T21:30:34Z) - Determining Layer-wise Sparsity for Large Language Models Through a Theoretical Perspective [55.90119819642064]
本稿では,大規模言語モデル (LLM) の階層的疎度率を理論的観点から決定する上での課題に対処する。
これは、スペーサー化プロセス全体での再構成エラーの累積効果を指す。
この問題を緩和するレイヤワイド・スパシティ・アロケーションに対する、シンプルで効果的なアプローチを導出します。
論文 参考訳(メタデータ) (2025-02-20T17:51:10Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [63.10833446782114]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZO) 最適化手法はメモリ効率の良い代替手段を提供する。
本稿では,高次元摂動によって生じる課題に対処するために,部分空間ゼロ次最適化を提案する。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Enhancing Zeroth-order Fine-tuning for Language Models with Low-rank Structures [21.18741772731095]
ゼロ階数(ZO)アルゴリズムは、関数値の有限差を用いて勾配を近似することで、有望な代替手段を提供する。
既存のZO法は、LLM微調整で一般的な低ランク勾配構造を捉えるのに苦労し、準最適性能をもたらす。
本稿では,LLMにおけるこの構造を効果的に捕捉する低ランクZOアルゴリズム(LOZO)を提案する。
論文 参考訳(メタデータ) (2024-10-10T08:10:53Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - A Particle-based Sparse Gaussian Process Optimizer [5.672919245950197]
本稿では,下降の動的過程を利用した新しいスワム・スワムベースのフレームワークを提案する。
このアプローチの最大の利点は、降下を決定する前に現在の状態についてより深い探索を行うことである。
論文 参考訳(メタデータ) (2022-11-26T09:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。