論文の概要: GaLore$+$: Boosting Low-Rank Adaptation for LLMs with Cross-Head Projection
- arxiv url: http://arxiv.org/abs/2412.19820v1
- Date: Sun, 15 Dec 2024 12:28:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 09:34:29.472603
- Title: GaLore$+$: Boosting Low-Rank Adaptation for LLMs with Cross-Head Projection
- Title(参考訳): GaLore$+$: クロスヘッド投影によるLDMの低ランク適応の促進
- Authors: Xutao Liao, Shaohui Li, Yuhui Xu, Zhi Li, Yu Liu, You He,
- Abstract要約: マルチヘッドアテンションのために低ランクプロジェクションを推定する際の時間消費を大幅に削減するために,クロスヘッド低ランクプロジェクションを用いたGaLore$+$を提案する。
我々の実験によると、GaLore$+$は、バニラのGaLoreに比べて、約4倍の微調整速度を達成しながら、優れたパフォーマンスを提供する。
- 参考スコア(独自算出の注目度): 17.33732087380253
- License:
- Abstract: Recent low-rank training methods, such as GaLore, have significantly reduced the memory required to optimize large language models (LLMs). However, these methods often suffer from time-consuming low-rank projection estimations. In particular, the singular value decomposition (SVD) in GaLore can consume more than 80\% of the total training time. To address this issue, we propose GaLore$+$, which uses cross-head low-rank projection to reduce the substantial time consumption in estimating low-rank projections for multi-head attention. In addition, we employ randomized subspace iteration to achieve fast SVD. To further enhance performance, we propose sparsely coded residuals to reduce the errors caused by low-rank approximation on the first- and second-order moments of the optimizers and weight updates. We evaluate GaLore$+$ on arithmetic reasoning and natural language generation datasets. Our experiments demonstrate that GaLore$+$ delivers superior performance while achieving approximately $4\times$ fine-tuning speed compared to vanilla GaLore.
- Abstract(参考訳): GaLoreのような最近の低ランクトレーニング手法は、大規模言語モデル(LLM)の最適化に必要なメモリを大幅に削減した。
しかし、これらの手法は、しばしば時間を要する低ランク予測の予測に悩まされる。
特に、GaLoreの特異値分解(SVD)は、トレーニング時間の80%以上を消費することができる。
この問題に対処するため,マルチヘッドアテンションのために低ランクプロジェクションを推定する際の時間消費を大幅に削減するために,クロスヘッド低ランクプロジェクションを用いたGaLore$+$を提案する。
さらに,高速なSVDを実現するために,ランダム化サブスペースの繰り返しを用いる。
性能をさらに向上するため,最適化器の1次および2次モーメントにおける低ランク近似による誤差を低減し,重み更新を行うための疎符号化残差を提案する。
算術的推論と自然言語生成データセットについてGaLore$+$を評価する。
我々の実験によると、GaLore$+$は、バニラのGaLoreに比べて、約4\times$の微調整速度を達成しながら、優れたパフォーマンスを提供する。
関連論文リスト
- Dynamic Low-Rank Sparse Adaptation for Large Language Models [54.1231638555233]
Low-rank Sparse Adaptation (LoSA)は、低ランク適応をsparse LLM sparsityにシームレスに統合する新しい手法である。
LoSAは、微調整中に対応するスパース重みに基づいてLoRA結果を動的に分散する。
LoSAは、追加の推論負荷を伴わずに、スパースLSMの有効性を数時間で効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-02-20T18:37:32Z) - SubTrack your Grad: Gradient Subspace Tracking for Memory and Time Efficient Full-Parameter LLM Training [6.057289837472806]
大規模言語モデル(LLM)の訓練は、大きなモデルのサイズと状態のために、かなりの時間と計算資源を必要とする。
進化する勾配部分空間を効率的に追跡する部分空間追跡に基づく最適化手法であるSubTrack-Gradを提案する。
SubTrack-Grad は GaLore よりも優れており、BAdam よりも優れています。
論文 参考訳(メタデータ) (2025-02-03T18:13:52Z) - COAP: Memory-Efficient Training with Correlation-Aware Gradient Projection [11.655821671462427]
トレーニング性能を維持しながら計算オーバーヘッドを最小限に抑えるメモリ効率の高いCOAPを提案する。
LLaMA-1Bでは、メモリをわずか2%追加で61%削減し、AdamWと同じPPLを実現する。
8ビット量子化により、COAPはメモリを81%削減し、LLaVA-v1.5-7BファインチューニングのためにGaLoreを4倍高速化する。
論文 参考訳(メタデータ) (2024-11-26T03:50:52Z) - Natural GaLore: Accelerating GaLore for memory-efficient LLM Training and Fine-tuning [1.3597551064547502]
GaLoreは、よりメモリ効率の良いフル教師付き学習を可能にする。
本研究はNatural GaLoreを導入し,低ランク勾配に対する逆経験的漁業情報行列を効率的に適用する。
論文 参考訳(メタデータ) (2024-10-21T14:05:06Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients [86.40635601953446]
量子化と低ランク投影を組み合わせることでメモリ使用量を大幅に削減する新しい手法であるQ-Galoreを導入する。
本稿では,Q-Galoreがメモリ効率に優れた競合性能を実現することを実証する。
論文 参考訳(メタデータ) (2024-07-11T08:42:58Z) - OwLore: Outlier-weighed Layerwise Sampled Low-Rank Projection for Memory-Efficient LLM Fine-tuning [18.102930806071978]
Outlier-weighed Layerwise Smpled Low-Rank Projection (OwLore) はメモリ効率の良い微調整手法である。
OwLoreは、完全な微調整を含むベースラインアプローチを一貫して上回る。
論文 参考訳(メタデータ) (2024-05-28T17:22:22Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。
本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。
私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文 参考訳(メタデータ) (2024-03-06T07:29:57Z) - Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文 参考訳(メタデータ) (2024-01-29T18:43:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。