論文の概要: Randomized Gradient Subspaces for Efficient Large Language Model Training
- arxiv url: http://arxiv.org/abs/2510.01878v1
- Date: Thu, 02 Oct 2025 10:35:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.091875
- Title: Randomized Gradient Subspaces for Efficient Large Language Model Training
- Title(参考訳): 効率的な大規模言語モデル学習のためのランダム化グラディエント部分空間
- Authors: Sahar Rajabi, Nayeema Nonta, Samanvay Vajpayee, Sirisha Rambhatla,
- Abstract要約: 大規模言語モデル(LLM)のトレーニングは、しばしば極端なメモリ要求によってボトルネックとなり、状態がフットプリントを支配している。
最近の研究は、洗練された更新戦略を用いて低次元部分空間に勾配を投影することで、このコストを軽減している。
小さな部分空間がほとんどの勾配エネルギーを捉えているのに対して、かなりの部分は残バルクに存在する。
我々は,LLaMA-1BとLLaMA-7Bの事前学習の性能を改善しつつ,サブスペースを活用し,最先端のメモリ節約を実現するランダム化アルゴリズムであるGrassWalkとGrassJumpを導入する。
- 参考スコア(独自算出の注目度): 4.398170461093705
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Training large language models (LLMs) is often bottlenecked by extreme memory demands, with optimizer states dominating the footprint. Recent works mitigates this cost by projecting gradients into low-dimensional subspaces using sophisticated update strategies. In this paper, we analyze the dynamics of gradient space and its underlying subspaces. We find that while a small subspace captures most gradient energy, a significant portion still resides in the residual bulk; moreover, the influence of the core subspace diminishes over time and in deeper layers. We also observe that the gradient space exhibits near-flat curvature, calling for algorithms that explicitly account for this geometry. Motivated by these insights, we introduce a suite of randomized algorithms, GrassWalk and GrassJump, which exploit subspace and achieve state-of-the-art memory savings while improving performance on LLaMA-1B and LLaMA-7B pretraining.
- Abstract(参考訳): 大規模言語モデル(LLM)のトレーニングは、しばしば極端なメモリ要求によってボトルネックになり、最適化状態がフットプリントを支配している。
最近の研究は、洗練された更新戦略を用いて低次元部分空間に勾配を投影することで、このコストを軽減している。
本稿では,勾配空間とその基底部分空間のダイナミクスを解析する。
小さい部分空間がほとんどの勾配エネルギーを捕捉する一方で、重要な部分はまだ残留バルクに残っており、その上、コア部分空間の影響は時間とともに減少する。
また、勾配空間がほぼ平坦な曲率を示すことを観察し、この幾何学を明示的に説明するアルゴリズムを求める。
これらの知見に触発されて、サブスペースを活用して最先端のメモリ節約を実現し、LLaMA-1BおよびLLaMA-7Bプリトレーニングの性能を改善したランダム化アルゴリズムであるGrassWalkとGrassJumpを導入する。
関連論文リスト
- Dimer-Enhanced Optimization: A First-Order Approach to Escaping Saddle Points in Neural Network Training [5.9408311406202285]
ダイマー法(英: Dimer method)は、ポテンシャルエネルギー表面の局所幾何学を探索する2つの密接な空間を持つ点を構成する一階法である。
分子動力学シミュレーションによるサドル点の位置推定に着想を得て, ダイマー最適化を提案する。
DEOは、サドルポイントやフラットリージョンから離れて、ステップ外の更新でトレーニング効率を向上させる。
論文 参考訳(メタデータ) (2025-07-26T14:57:32Z) - Large Language Models Encode Semantics in Low-Dimensional Linear Subspaces [31.401762286885656]
大規模言語モデル(LLM)の潜在空間幾何を理解することは、それらの振舞いとアライメントの鍵となる。
我々は6つの科学的トピックにわたる11の経験的モデルで大規模な研究を行っている。
論文 参考訳(メタデータ) (2025-07-13T17:03:25Z) - SplitLoRA: Balancing Stability and Plasticity in Continual Learning Through Gradient Space Splitting [68.00007494819798]
継続的な学習には、安定性を保ちながら複数のタスクを連続的に学習するモデルが必要である。
グラディエント・プロジェクションはCLにおいて有効で一般的なパラダイムとして現れ、以前に学習したタスクの勾配空間を2つの部分空間に分割する。
新しいタスクは小部分空間内で効果的に学習され、これにより以前取得した知識との干渉が軽減される。
既存の勾配射影法は、勾配空間を適切に分割することが困難であるため、塑性と安定性の最適なバランスを達成するのに苦労する。
論文 参考訳(メタデータ) (2025-05-28T13:57:56Z) - I3S: Importance Sampling Subspace Selection for Low-Rank Optimization in LLM Pretraining [50.89661053183944]
低ランク最適化は、大規模言語モデル(LLM)のメモリ効率のトレーニングを可能にするための有望なアプローチとして登場した。
既存の低ランク最適化手法は、通常、低ランクのサブスペースに勾配を投影し、状態を保存する際のメモリコストを低減させる。
低ランク最適化のための重要サンプリング部分空間選択(I3S)を提案し、理論的には支配的部分空間アプローチに匹敵する収束率を提供する。
論文 参考訳(メタデータ) (2025-02-09T06:30:19Z) - TeZO: Empowering the Low-Rankness on the Temporal Dimension in the Zeroth-Order Optimization for Fine-tuning LLMs [58.19080159470868]
モデルと時間次元の両方にわたって低ランク度をキャプチャする新しい低ランクZO推定器TeZOを提案する。
具体的には、時間次元に沿ったZO摂動を3次元テンソルとして表現し、Canonical Polyadic Decomposition (CPD)を用いて各低ランク2次元行列を抽出する。
論文 参考訳(メタデータ) (2025-01-31T11:34:03Z) - Class Gradient Projection For Continual Learning [99.105266615448]
破滅的な忘れは継続的学習(CL)における最も重要な課題の1つです。
タスクではなく個々のクラスから勾配部分空間を計算するクラスグラディエント・プロジェクション(CGP)を提案する。
論文 参考訳(メタデータ) (2023-11-25T02:45:56Z) - Recycling Model Updates in Federated Learning: Are Gradient Subspaces
Low-Rank? [26.055358499719027]
本稿では,この低ランク性を利用して勾配リサイクルを実現する「Look-back Gradient Multiplier(LBGM)」アルゴリズムを提案する。
我々は,LBGMの収束挙動を解析的に特徴付け,通信貯蓄とモデル性能のトレードオフの性質を明らかにする。
LBGMは,既存の分散モデルトレーニングのためのスペーシフィケーション技術の上に,スタンドアロンあるいは積み重ねて使用可能な汎用的なプラグアンドプレイアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2022-02-01T09:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。