論文の概要: Lotus: Efficient LLM Training by Randomized Low-Rank Gradient Projection with Adaptive Subspace Switching
- arxiv url: http://arxiv.org/abs/2602.01233v1
- Date: Sun, 01 Feb 2026 13:48:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.671737
- Title: Lotus: Efficient LLM Training by Randomized Low-Rank Gradient Projection with Adaptive Subspace Switching
- Title(参考訳): Lotus: 適応部分空間スイッチングを用いたランダム化低ランク勾配射影による効率的なLLM訓練
- Authors: Tianhao Miao, Zhongyuan Bao, Lejun Zhang,
- Abstract要約: GaLoreは、低ランクのサブスペースで勾配を更新することで、メモリ効率のトレーニングを可能にする。
勾配上のSingular Value Decomposition(SVD)プロセスにより、同等のトレーニング時間コストが発生する。
提案するLotusは,投影過程を単純に修正することで,このトレードオフを解決する手法である。
- 参考スコア(独自算出の注目度): 0.5390933335965427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training efficiency in large-scale models is typically assessed through memory consumption, training time, and model performance. Current methods often exhibit trade-offs among these metrics, as optimizing one generally degrades at least one of the others. Addressing this trade-off remains a central challenge in algorithm design. While GaLore enables memory-efficient training by updating gradients in a low-rank subspace, it incurs a comparable extra training time cost due to the Singular Value Decomposition(SVD) process on gradients. In this paper, we propose Lotus, a method that resolves this trade-off by simply modifying the projection process. We propose a criterion that quantifies the displacement of the unit gradient to enable efficient transitions between low-rank gradient subspaces. Experimental results indicate that Lotus is the most efficient method, achieving a 30% reduction in training time and a 40% decrease in memory consumption for gradient and optimizer states. Additionally, it outperforms the baseline method in both pre-training and fine-tuning tasks.
- Abstract(参考訳): 大規模モデルのトレーニング効率は通常、メモリ消費、トレーニング時間、モデルパフォーマンスによって評価される。
現在の手法では、これらの指標間のトレードオフがしばしば示され、一方の最適化は一般的に、他方の少なくとも一方を分解する。
このトレードオフに対処することは、アルゴリズム設計における中心的な課題である。
GaLoreは低ランクのサブスペースの勾配を更新することでメモリ効率のトレーニングを可能にするが、Singular Value Decomposition(SVD)プロセスにより、同等のトレーニングコストがかかる。
本稿では,投影過程を単純に修正することで,このトレードオフを解決する手法であるLotusを提案する。
低ランク勾配部分空間間の効率的な遷移を可能にするために、単位勾配の変位を定量化する基準を提案する。
実験結果から,Lotusが最も効率的な方法であり,トレーニング時間の30%削減と,勾配および最適化状態のメモリ消費の40%削減を実現していることがわかった。
さらに、事前学習タスクと微調整タスクの両方において、ベースラインメソッドよりも優れています。
関連論文リスト
- PLUMAGE: Probabilistic Low rank Unbiased Min Variance Gradient Estimator for Efficient Large Model Training [21.695928776150808]
アクセラレータのメモリとネットワークの制約は、大きな言語モデルをトレーニングする際の主要なボトルネックとして現れている。
PLUMAGE: Probabilistic Low rank Unbiased Minimum v Ariance Gradient Estorを提案する。
PLUMAGEは,モデル全体で平均33%,GLUEベンチマークで平均28%,GaloREと同様の計算量およびメモリフットプリントで平均33%の事前トレーニング評価損失に対して,フルランク最適化のギャップを縮めることを実証的に実証した。
論文 参考訳(メタデータ) (2025-05-23T19:17:55Z) - AdaRankGrad: Adaptive Gradient-Rank and Moments for Memory-Efficient LLMs Training and Fine-Tuning [9.51289606759621]
大規模言語モデル(LLM)の訓練と微調整には、メモリと計算要求に関する課題が伴う。
低ランク適応(LoRA)など、これらの課題に対処する様々な技術が開発されている。
トレーニングが進むにつれて、推定勾配のランクが徐々に低下する現象に着想を得た新しい手法を導入する。
論文 参考訳(メタデータ) (2024-10-23T13:53:26Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Empirical Analysis on Top-k Gradient Sparsification for Distributed Deep
Learning in a Supercomputing Environment [0.6091702876917281]
通信トラフィックを大幅に削減するために,勾配スペーシフィケーションが提案されている。
Top-kグラデーションスペーシフィケーション(Top-k SGD)は、トレーニング全体のパフォーマンス向上に限界がある。
我々はTop-k SGDの非効率性を示す実験を行い、低性能の知見を提供する。
論文 参考訳(メタデータ) (2022-09-18T07:42:31Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。