論文の概要: GaLore 2: Large-Scale LLM Pre-Training by Gradient Low-Rank Projection
- arxiv url: http://arxiv.org/abs/2504.20437v1
- Date: Tue, 29 Apr 2025 05:27:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.761355
- Title: GaLore 2: Large-Scale LLM Pre-Training by Gradient Low-Rank Projection
- Title(参考訳): GaLore 2: グラディエント低ランク投影による大規模LCM事前評価
- Authors: DiJia Su, Andrew Gu, Jane Xu, Yuandong Tian, Jiawei Zhao,
- Abstract要約: GaLore, Gradient Low-Rank Projection は、ウェイト勾配の固有の低ランク構造を利用してこの問題に対処する。
最近の研究は、低ビット量子化や高次テンソル構造を含む様々な側面からGaLoreをさらに拡張している。
これらの課題に対処し、最近の進歩を取り入れた、効率的でスケーラブルなGaLoreフレームワークであるGaLore 2を紹介します。
- 参考スコア(独自算出の注目度): 31.277462922203302
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have revolutionized natural language understanding and generation but face significant memory bottlenecks during training. GaLore, Gradient Low-Rank Projection, addresses this issue by leveraging the inherent low-rank structure of weight gradients, enabling substantial memory savings without sacrificing performance. Recent works further extend GaLore from various aspects, including low-bit quantization and higher-order tensor structures. However, there are several remaining challenges for GaLore, such as the computational overhead of SVD for subspace updates and the integration with state-of-the-art training parallelization strategies (e.g., FSDP). In this paper, we present GaLore 2, an efficient and scalable GaLore framework that addresses these challenges and incorporates recent advancements. In addition, we demonstrate the scalability of GaLore 2 by pre-training Llama 7B from scratch using up to 500 billion training tokens, highlighting its potential impact on real LLM pre-training scenarios.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語の理解と生成に革命をもたらしたが、トレーニング中に重要なメモリボトルネックに直面している。
GaLore, Gradient Low-Rank Projectionは、ウェイト勾配の固有の低ランク構造を活用することでこの問題に対処し、性能を犠牲にすることなく大幅なメモリ節約を実現する。
最近の研究は、低ビット量子化や高次テンソル構造を含む様々な側面からGaLoreをさらに拡張している。
しかし、サブスペース更新におけるSVDの計算オーバーヘッドや、最先端のトレーニング並列化戦略(FSDPなど)との統合など、GaLoreにはいくつかの課題がある。
本稿では,これらの課題に対処し,最近の進歩を取り入れた,効率よくスケーラブルなGaLoreフレームワークであるGaLore 2を提案する。
さらに、最大500億のトレーニングトークンを使用してLlama 7Bをスクラッチから事前トレーニングすることで、GaLore 2のスケーラビリティを実証し、実際のLLM事前トレーニングシナリオへの影響を明らかにする。
関連論文リスト
- Dynamic Low-Rank Sparse Adaptation for Large Language Models [54.1231638555233]
Low-rank Sparse Adaptation (LoSA)は、低ランク適応をsparse LLM sparsityにシームレスに統合する新しい手法である。
LoSAは、微調整中に対応するスパース重みに基づいてLoRA結果を動的に分散する。
LoSAは、追加の推論負荷を伴わずに、スパースLSMの有効性を数時間で効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-02-20T18:37:32Z) - GaLore$+$: Boosting Low-Rank Adaptation for LLMs with Cross-Head Projection [17.33732087380253]
マルチヘッドアテンションのために低ランクプロジェクションを推定する際の時間消費を大幅に削減するために,クロスヘッド低ランクプロジェクションを用いたGaLore$+$を提案する。
我々の実験によると、GaLore$+$は、バニラのGaLoreに比べて、約4倍の微調整速度を達成しながら、優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-12-15T12:28:13Z) - From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients [86.40635601953446]
現代大規模言語モデルの様々な層にまたがる低ランク構造の出現について検討する。
WeLore(Weight Low-Rank Projection)を提案する。
論文 参考訳(メタデータ) (2024-07-15T21:05:20Z) - Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients [86.40635601953446]
量子化と低ランク投影を組み合わせることでメモリ使用量を大幅に削減する新しい手法であるQ-Galoreを導入する。
本稿では,Q-Galoreがメモリ効率に優れた競合性能を実現することを実証する。
論文 参考訳(メタデータ) (2024-07-11T08:42:58Z) - BlockLLM: Memory-Efficient Adaptation of LLMs by Selecting and Optimizing the Right Coordinate Blocks [19.007090250576585]
BlockLLMはブロック座標降下にインスパイアされたアプローチである。
微調整と事前訓練の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-25T05:45:12Z) - OwLore: Outlier-weighed Layerwise Sampled Low-Rank Projection for Memory-Efficient LLM Fine-tuning [18.102930806071978]
Outlier-weighed Layerwise Smpled Low-Rank Projection (OwLore) はメモリ効率の良い微調整手法である。
OwLoreは、完全な微調整を含むベースラインアプローチを一貫して上回る。
論文 参考訳(メタデータ) (2024-05-28T17:22:22Z) - GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。
本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。
私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文 参考訳(メタデータ) (2024-03-06T07:29:57Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。