論文の概要: SUMO: Subspace-Aware Moment-Orthogonalization for Accelerating Memory-Efficient LLM Training
- arxiv url: http://arxiv.org/abs/2505.24749v1
- Date: Fri, 30 May 2025 16:08:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.061245
- Title: SUMO: Subspace-Aware Moment-Orthogonalization for Accelerating Memory-Efficient LLM Training
- Title(参考訳): SUMO: 記憶効率向上のためのサブスペース対応モーメント直交化
- Authors: Yehonathan Refael, Guy Smorodinsky, Tom Tirer, Ofir Lindenbaum,
- Abstract要約: 低ランク勾配に基づく最適化手法は、大規模言語モデル(LLM)の訓練において、メモリ効率を大幅に改善した。
これらの手法は主にメモリの節約を強調し、しばしば収束の潜在的な加速を見落としている。
本稿では,SUMO(Subspace-Aware Moment-Orthogonalization)を提案する。
我々は,SUMOがコンバージェンスを加速し,安定性を向上し,性能を向上し,最先端手法と比較してメモリ要求を最大20%削減することを示した。
- 参考スコア(独自算出の注目度): 13.180761892449736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-rank gradient-based optimization methods have significantly improved memory efficiency during the training of large language models (LLMs), enabling operations within constrained hardware without sacrificing performance. However, these methods primarily emphasize memory savings, often overlooking potential acceleration in convergence due to their reliance on standard isotropic steepest descent techniques, which can perform suboptimally in the highly anisotropic landscapes typical of deep networks, particularly LLMs. In this paper, we propose SUMO (Subspace-Aware Moment-Orthogonalization), an optimizer that employs exact singular value decomposition (SVD) for moment orthogonalization within a dynamically adapted low-dimensional subspace, enabling norm-inducing steepest descent optimization steps. By explicitly aligning optimization steps with the spectral characteristics of the loss landscape, SUMO effectively mitigates approximation errors associated with commonly used methods like Newton-Schulz orthogonalization approximation. We theoretically establish an upper bound on these approximation errors, proving their dependence on the condition numbers of moments, conditions we analytically demonstrate are encountered during LLM training. Furthermore, we both theoretically and empirically illustrate that exact orthogonalization via SVD substantially improves convergence rates while reducing overall complexity. Empirical evaluations confirm that SUMO accelerates convergence, enhances stability, improves performance, and reduces memory requirements by up to 20% compared to state-of-the-art methods.
- Abstract(参考訳): 低ランク勾配に基づく最適化手法は、大規模言語モデル(LLM)のトレーニングにおいてメモリ効率を大幅に改善し、性能を犠牲にすることなくハードウェア内での操作を可能にする。
しかし、これらの手法は主にメモリの節約に重点を置いており、しばしば標準等方性急勾配降下法に依存しているため収束の潜在的な加速を見落とし、深層ネットワーク、特にLLMの典型的な高度異方性景観において、最適に実行することができる。
本稿では、動的に適応した低次元部分空間内でのモーメント直交化に精度の高い特異値分解(SVD)を利用する最適化器SUMO(Subspace-Aware Moment-Orthogonalization)を提案する。
損失ランドスケープのスペクトル特性と最適化ステップを明示的に整合させることにより、SUMOはNewton-Schulz直交近似のような一般的な手法に付随する近似誤差を効果的に軽減する。
理論的にこれらの近似誤差の上限を定め, モーメントの条件数, 解析的に実証した条件に依存性があることを証明した。
さらに、SVDによる正確な直交化は、全体的な複雑さを減らしながら、収束率を大幅に改善するということを理論的かつ実証的に示している。
実験的な評価では、SUMOは収束を加速し、安定性を高め、性能を改善し、最先端の手法と比較して最大20%のメモリ要求を削減している。
関連論文リスト
- Architect Your Landscape Approach (AYLA) for Optimizations in Deep Learning [0.0]
グラディエントDescent(DSG)とその変種(ADAMなど)はディープラーニングの最適化の基礎となっている。
本稿では適応性と効率性を向上する新しい最適化手法であるAYLAを紹介する。
論文 参考訳(メタデータ) (2025-04-02T16:31:39Z) - I3S: Importance Sampling Subspace Selection for Low-Rank Optimization in LLM Pretraining [50.89661053183944]
低ランク最適化は、大規模言語モデル(LLM)のメモリ効率のトレーニングを可能にするための有望なアプローチとして登場した。
既存の低ランク最適化手法は、通常、低ランクのサブスペースに勾配を投影し、状態を保存する際のメモリコストを低減させる。
低ランク最適化のための重要サンプリング部分空間選択(I3S)を提案し、理論的には支配的部分空間アプローチに匹敵する収束率を提供する。
論文 参考訳(メタデータ) (2025-02-09T06:30:19Z) - Refining Adaptive Zeroth-Order Optimization at Ease [24.327161891577727]
本稿では,Refined Adaptive Zeroth-Order Optimization (R-AdaZO)を紹介する。
まず、ZO勾配推定における第1モーメント推定の未解決分散低減効果を示す。
次に、これらの分散誘導勾配推定に基づいて第2モーメント推定を洗練し、最適化ランドスケープの幾何をより正確に把握する。
論文 参考訳(メタデータ) (2025-02-03T03:10:44Z) - Elucidating Subspace Perturbation in Zeroth-Order Optimization: Theory and Practice at Scale [33.38543010618118]
Zeroth-order (ZO) 最適化は、勾配ベースのバックプロパゲーション法に代わる有望な代替手段として登場した。
高次元性が主要なボトルネックであることを示し、サブスペースの摂動が勾配ノイズを減らし収束を加速させる方法について説明するために、テキストサブスペースアライメントの概念を導入する。
本稿では,ブロック座標降下法(MeZO-BCD)を用いた効率的なZO法を提案し,各ステップでパラメータのサブセットのみを摂動・更新する。
論文 参考訳(メタデータ) (2025-01-31T12:46:04Z) - Gradient Normalization Provably Benefits Nonconvex SGD under Heavy-Tailed Noise [60.92029979853314]
重み付き雑音下でのグラディエントDescence(SGD)の収束を確実にする上での勾配正規化とクリッピングの役割について検討する。
我々の研究は、重尾雑音下でのSGDの勾配正規化の利点を示す最初の理論的証拠を提供する。
我々は、勾配正規化とクリッピングを取り入れた加速SGD変種を導入し、さらに重み付き雑音下での収束率を高めた。
論文 参考訳(メタデータ) (2024-10-21T22:40:42Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Enhancing Zeroth-order Fine-tuning for Language Models with Low-rank Structures [21.18741772731095]
ゼロ階数(ZO)アルゴリズムは、関数値の有限差を用いて勾配を近似することで、有望な代替手段を提供する。
既存のZO法は、LLM微調整で一般的な低ランク勾配構造を捉えるのに苦労し、準最適性能をもたらす。
本稿では,LLMにおけるこの構造を効果的に捕捉する低ランクZOアルゴリズム(LOZO)を提案する。
論文 参考訳(メタデータ) (2024-10-10T08:10:53Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。