論文の概要: AGoQ: Activation and Gradient Quantization for Memory-Efficient Distributed Training of LLMs
- arxiv url: http://arxiv.org/abs/2605.00539v1
- Date: Fri, 01 May 2026 09:39:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.923088
- Title: AGoQ: Activation and Gradient Quantization for Memory-Efficient Distributed Training of LLMs
- Title(参考訳): AGoQ: LLMのメモリ効率の高い分散トレーニングのためのアクティベーションとグラディエント量子化
- Authors: Wenxiang Lin, Juntao Huang, Luhan Zhang, Laili Li, Xiang Bao, Mengyang Zhang, Bing Wang, Shaohuai Shi,
- Abstract要約: 量子化は、大規模言語モデル(LLM)のトレーニングにおけるGPUメモリ要求を減らすための重要な方法である
本稿では,AGoQを導入し,AGoQとAGoQの2つの新しい手法について紹介する。1)タイプとパイプラインステージに基づいて,各レイヤのアクティベーションに適切なビット幅を割り当てて,ほぼ4ビットのアクティベーションストレージを実現する階層型アクティベーション量子化アルゴリズム,2)8ビットのグラデーションストレージと精度保存8ビットのAll-Reduce通信を利用することで,メモリ使用率を低減し,通信時間を短縮する勾配量子化アルゴリズム。
- 参考スコア(独自算出の注目度): 9.35503487039164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantization is a key method for reducing the GPU memory requirement of training large language models (LLMs). Yet, current approaches are ineffective for 4-bit activations and 8-bit gradients, which would easily cause slow convergence or accuracy loss. To address this, we introduce AGoQ, incorporating two new techniques: 1) a layer-aware activation quantization algorithm that allocates appropriate bit-widths for activations of various layers based on their types and pipeline stages to achieve near 4-bit activation storage, and 2) a gradient quantization algorithm that reduces memory usage and shortens communication time by employing 8-bit gradient storage and precision-preserving 8-bit All-Reduce communication. We conduct extensive experiments using different sizes of LLMs on two GPU clusters (up to 64 GPUs), and the experimental results show that our AGoQ reduces the memory by up to 52\% and achieves up to 1.34$\times$ improvement of training speed compared to state-of-the-art training systems Megatron-LM (w/ or w/o ZeRO), COAT and DeepSpeed with 8B to 32B LLaMA models, while achieving convergence loss on pretraining and comparable accuracy on downstream tasks with LLaMA architectures.
- Abstract(参考訳): 量子化は、大規模言語モデル(LLM)をトレーニングする際のGPUメモリ要求を減らすための重要な方法である。
しかし、現在のアプローチは4ビットのアクティベーションと8ビットのグラデーションには効果がないため、収束や精度の低下が容易に生じる。
これを解決するために、AGoQを導入し、2つの新しいテクニックを取り入れます。
1)4ビットに近いアクティベーションストレージを実現するために,各レイヤのアクティベーションに適切なビット幅を割り当てる層対応アクティベーション量子化アルゴリズム
2) 8ビットの勾配記憶と精度保存8ビットのオールレデュース通信を用いることで,メモリ使用率を低減し,通信時間を短縮する勾配量子化アルゴリズムを提案する。
我々は2つのGPUクラスタ(最大64GPU)上でLLMの異なるサイズを用いた広範な実験を行い、実験結果から、AGoQは、LLaMAアーキテクチャによる事前学習と同等の精度で、LLaMAアーキテクチャによる下流タスクのコンバージェンスロスを達成しつつ、最先端のトレーニングシステムであるMegatron-LM (w/またはw/o ZeRO)、COATおよびDeepSpeedの8Bから32B LLaMAモデルと比較して、メモリを最大52倍に削減し、トレーニング速度を最大1.34$\times$に向上することを示した。
関連論文リスト
- COAP: Memory-Efficient Training with Correlation-Aware Gradient Projection [17.54863041098623]
トレーニング性能を維持しながら計算オーバーヘッドを最小限に抑えるメモリ効率の高いCOAPを提案する。
LLaMA-1Bでは、メモリをわずか2%追加で61%削減し、AdamWと同じPPLを実現する。
8ビット量子化により、COAPはメモリを81%削減し、LLaVA-v1.5-7BファインチューニングのためにGaLoreを4倍高速化する。
論文 参考訳(メタデータ) (2024-11-26T03:50:52Z) - Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - MEMO: Fine-grained Tensor Management For Ultra-long Context LLM Training [24.066283519769968]
大規模言語モデル(LLM)は、よりクリエイティブなアプリケーションを促進するために、拡張コンテキスト長を使用して訓練されている。
本稿では,メモリ管理を微粒化するための新しいフレームワークであるMEMOを提案する。
MeMOはMegatron-LMやDeepSpeedと比べて平均1.97倍と1.80倍のMFUを達成している。
論文 参考訳(メタデータ) (2024-07-16T18:59:49Z) - EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。
より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。
効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文 参考訳(メタデータ) (2024-07-10T17:53:30Z) - GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。
本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。
私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文 参考訳(メタデータ) (2024-03-06T07:29:57Z) - FlattenQuant: Breaking Through the Inference Compute-bound for Large
Language Models with Per-tensor Quantization [6.931020818874328]
テンソル内の大きなチャネルを平らにすることでテンソルの最大値を大幅に低減し、最小の精度でテンソル当たりの量子化を実現するFlattenQuantという手法を提案する。
我々の研究は2$times$ speedupと2.3$times$ memory reduction for LLMs with negligible loss in accuracyを達成している。
論文 参考訳(メタデータ) (2024-02-28T02:00:34Z) - Sub 8-Bit Quantization of Streaming Keyword Spotting Models for Embedded
Chipsets [7.5195830365852085]
本稿では,250Kパラメータのフィードフォワード,ストリーミング,ステートフリーなキーワードスポッティングモデルの全コンポーネントに対する,新しいサブ8ビット量子化対応トレーニングアルゴリズムを提案する。
大規模実験を行い、26,000時間の非特定生産、遠距離場および近距離場音声データをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T17:46:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。