論文の概要: COAP: Memory-Efficient Training with Correlation-Aware Gradient Projection
- arxiv url: http://arxiv.org/abs/2412.00071v1
- Date: Tue, 26 Nov 2024 03:50:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-08 08:18:06.462077
- Title: COAP: Memory-Efficient Training with Correlation-Aware Gradient Projection
- Title(参考訳): COAP:相関性を考慮したグラディエント投影によるメモリ効率トレーニング
- Authors: Jinqi Xiao, Shen Sang, Tiancheng Zhi, Jing Liu, Qing Yan, Linjie Luo, Bo Yuan,
- Abstract要約: トレーニング性能を維持しながら計算オーバーヘッドを最小限に抑えるメモリ効率の高いCOAPを提案する。
LLaMA-1Bでは、メモリをわずか2%追加で61%削減し、AdamWと同じPPLを実現する。
8ビット量子化により、COAPはメモリを81%削減し、LLaVA-v1.5-7BファインチューニングのためにGaLoreを4倍高速化する。
- 参考スコア(独自算出の注目度): 11.655821671462427
- License:
- Abstract: Training large-scale neural networks in vision, and multimodal domains demands substantial memory resources, primarily due to the storage of optimizer states. While LoRA, a popular parameter-efficient method, reduces memory usage, it often suffers from suboptimal performance due to the constraints of low-rank updates. Low-rank gradient projection methods (e.g., GaLore, Flora) reduce optimizer memory by projecting gradients and moment estimates into low-rank spaces via singular value decomposition or random projection. However, they fail to account for inter-projection correlation, causing performance degradation, and their projection strategies often incur high computational costs. In this paper, we present COAP (Correlation-Aware Gradient Projection), a memory-efficient method that minimizes computational overhead while maintaining training performance. Evaluated across various vision, language, and multimodal tasks, COAP outperforms existing methods in both training speed and model performance. For LLaMA-1B, it reduces optimizer memory by 61% with only 2% additional time cost, achieving the same PPL as AdamW. With 8-bit quantization, COAP cuts optimizer memory by 81% and achieves 4x speedup over GaLore for LLaVA-v1.5-7B fine-tuning, while delivering higher accuracy.
- Abstract(参考訳): 視覚における大規模ニューラルネットワークのトレーニングとマルチモーダルドメインは、主にオプティマイザ状態の保存のために、かなりのメモリリソースを必要とする。
一般的なパラメータ効率の手法であるLoRAは、メモリ使用量を減らすが、低ランク更新の制約により、しばしば準最適性能に悩まされる。
低ランク勾配投影法(例えば、GaLore, Flora)は、勾配とモーメント推定を特異値分解やランダム射影によって低ランク空間に投影することで最適化メモリを削減する。
しかし、プロジェクション間の相関を考慮せず、性能劣化を引き起こし、プロジェクション戦略はしばしば高い計算コストを発生させる。
本稿では、トレーニング性能を維持しながら計算オーバーヘッドを最小限に抑えるメモリ効率の高いCOAP(Correlation-Aware Gradient Projection)を提案する。
様々なビジョン、言語、マルチモーダルタスクで評価され、COAPはトレーニング速度とモデルパフォーマンスの両方において既存の手法よりも優れています。
LLaMA-1Bでは、最適化メモリを61%削減し、AdamWと同じPPLを実現した。
8ビット量子化により、COAPはオプティマイザメモリを81%削減し、LLaVA-v1.5-7Bの微調整でGaLoreよりも4倍の高速化を実現し、精度も向上した。
関連論文リスト
- APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。
メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。
i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文 参考訳(メタデータ) (2024-12-06T18:55:34Z) - Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients [86.40635601953446]
量子化と低ランク投影を組み合わせることでメモリ使用量を大幅に削減する新しい手法であるQ-Galoreを導入する。
本稿では,Q-Galoreがメモリ効率に優れた競合性能を実現することを実証する。
論文 参考訳(メタデータ) (2024-07-11T08:42:58Z) - Grass: Compute Efficient Low-Memory LLM Training with Structured Sparse Gradients [24.58231358634904]
大規模言語モデル(LLM)のトレーニングと微調整は、しばしば限られたGPUメモリによってボトルネックとなる。
グラス(GRAdient Stuctured Sparsification,GRAdient Stuctured Sparsification,GRAdient Stuctured Sparsification)は、スパースプロジェクションを利用して勾配を構造化されたスパース更新に変換する新しい手法である。
論文 参考訳(メタデータ) (2024-06-25T15:50:32Z) - GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。
本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。
私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文 参考訳(メタデータ) (2024-03-06T07:29:57Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - CAME: Confidence-guided Adaptive Memory Efficient Optimization [20.009302737137787]
適応勾配法は大規模言語モデルの訓練において優れた性能を示した。
二次モーメント推定の維持には、メモリオーバーヘッドの増大を高いコストで維持する必要がある。
補助メモリ使用量の大幅な削減を実現するために、いくつかのメモリ効率が提案されているが、性能上のペナルティがある。
我々は,従来の適応手法のように高速収束,メモリ効率の低い2つの目標を同時に達成するために,CAMEを提案する。
論文 参考訳(メタデータ) (2023-07-05T06:05:36Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。