Fugu-MT 論文翻訳(概要): Lotus: Efficient LLM Training by Randomized Low-Rank Gradient Projection with Adaptive Subspace Switching

論文の概要: Lotus: Efficient LLM Training by Randomized Low-Rank Gradient Projection with Adaptive Subspace Switching

arxiv url: http://arxiv.org/abs/2602.01233v1
Date: Sun, 01 Feb 2026 13:48:00 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-03 19:28:33.671737
Title: Lotus: Efficient LLM Training by Randomized Low-Rank Gradient Projection with Adaptive Subspace Switching
Title（参考訳）: Lotus: 適応部分空間スイッチングを用いたランダム化低ランク勾配射影による効率的なLLM訓練
Authors: Tianhao Miao, Zhongyuan Bao, Lejun Zhang,
Abstract要約: GaLoreは、低ランクのサブスペースで勾配を更新することで、メモリ効率のトレーニングを可能にする。勾配上のSingular Value Decomposition(SVD)プロセスにより、同等のトレーニング時間コストが発生する。提案するLotusは,投影過程を単純に修正することで,このトレードオフを解決する手法である。
参考スコア（独自算出の注目度）: 0.5390933335965427
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Training efficiency in large-scale models is typically assessed through memory consumption, training time, and model performance. Current methods often exhibit trade-offs among these metrics, as optimizing one generally degrades at least one of the others. Addressing this trade-off remains a central challenge in algorithm design. While GaLore enables memory-efficient training by updating gradients in a low-rank subspace, it incurs a comparable extra training time cost due to the Singular Value Decomposition(SVD) process on gradients. In this paper, we propose Lotus, a method that resolves this trade-off by simply modifying the projection process. We propose a criterion that quantifies the displacement of the unit gradient to enable efficient transitions between low-rank gradient subspaces. Experimental results indicate that Lotus is the most efficient method, achieving a 30% reduction in training time and a 40% decrease in memory consumption for gradient and optimizer states. Additionally, it outperforms the baseline method in both pre-training and fine-tuning tasks.
Abstract（参考訳）: 大規模モデルのトレーニング効率は通常、メモリ消費、トレーニング時間、モデルパフォーマンスによって評価される。現在の手法では、これらの指標間のトレードオフがしばしば示され、一方の最適化は一般的に、他方の少なくとも一方を分解する。このトレードオフに対処することは、アルゴリズム設計における中心的な課題である。 GaLoreは低ランクのサブスペースの勾配を更新することでメモリ効率のトレーニングを可能にするが、Singular Value Decomposition(SVD)プロセスにより、同等のトレーニングコストがかかる。本稿では,投影過程を単純に修正することで,このトレードオフを解決する手法であるLotusを提案する。低ランク勾配部分空間間の効率的な遷移を可能にするために、単位勾配の変位を定量化する基準を提案する。実験結果から,Lotusが最も効率的な方法であり,トレーニング時間の30%削減と,勾配および最適化状態のメモリ消費の40%削減を実現していることがわかった。さらに、事前学習タスクと微調整タスクの両方において、ベースラインメソッドよりも優れています。

関連論文リスト

PLUMAGE: Probabilistic Low rank Unbiased Min Variance Gradient Estimator for Efficient Large Model Training [21.695928776150808]
アクセラレータのメモリとネットワークの制約は、大きな言語モデルをトレーニングする際の主要なボトルネックとして現れている。 PLUMAGE: Probabilistic Low rank Unbiased Minimum v Ariance Gradient Estorを提案する。 PLUMAGEは,モデル全体で平均33%,GLUEベンチマークで平均28%,GaloREと同様の計算量およびメモリフットプリントで平均33%の事前トレーニング評価損失に対して,フルランク最適化のギャップを縮めることを実証的に実証した。
論文参考訳（メタデータ） (2025-05-23T19:17:55Z)
Optimizing ML Training with Metagradient Descent [69.89631748402377]
モデルトレーニングによる勾配というメタグラディエントを,大規模に効率的に計算するアルゴリズムを導入する。次に、メタグラディエントを用いた効果的な最適化を可能にする「滑らかなモデルトレーニング」フレームワークを導入する。
論文参考訳（メタデータ） (2025-03-17T22:18:24Z)
COAP: Memory-Efficient Training with Correlation-Aware Gradient Projection [17.54863041098623]
トレーニング性能を維持しながら計算オーバーヘッドを最小限に抑えるメモリ効率の高いCOAPを提案する。 LLaMA-1Bでは、メモリをわずか2%追加で61%削減し、AdamWと同じPPLを実現する。 8ビット量子化により、COAPはメモリを81%削減し、LLaVA-v1.5-7BファインチューニングのためにGaLoreを4倍高速化する。
論文参考訳（メタデータ） (2024-11-26T03:50:52Z)
AdaRankGrad: Adaptive Gradient-Rank and Moments for Memory-Efficient LLMs Training and Fine-Tuning [9.51289606759621]
大規模言語モデル(LLM)の訓練と微調整には、メモリと計算要求に関する課題が伴う。低ランク適応(LoRA)など、これらの課題に対処する様々な技術が開発されている。トレーニングが進むにつれて、推定勾配のランクが徐々に低下する現象に着想を得た新しい手法を導入する。
論文参考訳（メタデータ） (2024-10-23T13:53:26Z)
Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [63.10833446782114]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。 Zeroth-order (ZO) 最適化手法はメモリ効率の良い代替手段を提供する。本稿では,高次元摂動によって生じる課題に対処するために,部分空間ゼロ次最適化を提案する。
論文参考訳（メタデータ） (2024-10-11T17:01:43Z)
Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。 GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文参考訳（メタデータ） (2023-12-19T06:06:30Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文参考訳（メタデータ） (2022-10-07T03:52:27Z)
Empirical Analysis on Top-k Gradient Sparsification for Distributed Deep Learning in a Supercomputing Environment [0.6091702876917281]
通信トラフィックを大幅に削減するために,勾配スペーシフィケーションが提案されている。 Top-kグラデーションスペーシフィケーション(Top-k SGD)は、トレーニング全体のパフォーマンス向上に限界がある。我々はTop-k SGDの非効率性を示す実験を行い、低性能の知見を提供する。
論文参考訳（メタデータ） (2022-09-18T07:42:31Z)
Adapting Stepsizes by Momentumized Gradients Improves Optimization and Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。 textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。 textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文参考訳（メタデータ） (2021-06-22T03:13:23Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。