論文の概要: EDGC: Entropy-driven Dynamic Gradient Compression for Efficient LLM Training
- arxiv url: http://arxiv.org/abs/2511.10333v1
- Date: Fri, 14 Nov 2025 01:45:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.817467
- Title: EDGC: Entropy-driven Dynamic Gradient Compression for Efficient LLM Training
- Title(参考訳): EDGC:効率的なLDMトレーニングのためのエントロピー駆動動的グラディエント圧縮
- Authors: Qingao Yi, Jiaang Duan, Hanwen Hu, Qin Hua, Haiyan Zhao, Shiyou Qian, Dingyu Yang, Jian Cao, Jinghua Tang, Yinghao Yu, Chenzhi Liao, Kangjin Wang, Liping Zhang,
- Abstract要約: 大規模言語モデル(LLM)の訓練は、計算資源とメモリ容量に関する重大な課題を提起する。
既存のアプローチは主に通信効率を高めるために静的勾配圧縮に依存している。
EDGCと呼ばれるエントロピー駆動の動的勾配圧縮フレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.898292264147427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training large language models (LLMs) poses significant challenges regarding computational resources and memory capacity. Although distributed training techniques help mitigate these issues, they still suffer from considerable communication overhead. Existing approaches primarily rely on static gradient compression to enhance communication efficiency; however, these methods neglect the dynamic nature of evolving gradients during training, leading to performance degradation. Accelerating LLM training via compression without sacrificing performance remains a challenge. In this paper, we propose an entropy-driven dynamic gradient compression framework called EDGC. The core concept is to adjust the compression rate during LLM training based on the evolving trends of gradient entropy, taking into account both compression efficiency and error. EDGC consists of three key components.First, it employs a down-sampling method to efficiently estimate gradient entropy, reducing computation overhead. Second, it establishes a theoretical model linking compression rate with gradient entropy, enabling more informed compression decisions. Lastly, a window-based adjustment mechanism dynamically adapts the compression rate across pipeline stages, improving communication efficiency and maintaining model performance. We implemented EDGC on a 32-NVIDIA-V100 cluster and a 64-NVIDIA-H100 cluster to train GPT2-2.5B and GPT2-12.1B, respectively. The results show that EDGC significantly reduces communication latency and training time by up to 46.45% and 16.13% while preserving LLM accuracy.
- Abstract(参考訳): 大規模言語モデル(LLM)の訓練は、計算資源とメモリ容量に関する重大な課題を提起する。
分散トレーニング技術はこれらの問題を緩和するのに役立つが、それでもかなりの通信オーバーヘッドに悩まされている。
既存の手法は主に通信効率を高めるために静的勾配圧縮に依存しているが、これらの手法は訓練中に進化する勾配の動的性質を無視し、性能劣化をもたらす。
性能を犠牲にすることなく圧縮によるLLMトレーニングを加速することは依然として課題である。
本稿では,EDGCと呼ばれるエントロピー駆動型動的勾配圧縮フレームワークを提案する。
中心となる概念は、圧縮効率と誤差の両方を考慮して、勾配エントロピーの進化傾向に基づいて、LLMトレーニング中の圧縮率を調整することである。
EDGCは3つの重要なコンポーネントから構成されており、まず、勾配エントロピーを効率的に推定し、計算オーバーヘッドを減らすためにダウンサンプリング方式を採用している。
第二に、圧縮速度と勾配エントロピーをリンクする理論的モデルを確立し、より情報的な圧縮決定を可能にする。
最後に、ウィンドウベースの調整機構は、パイプラインステージ間の圧縮率を動的に調整し、通信効率を改善し、モデル性能を維持する。
EDGCを32-NVIDIA-V100クラスタと64-NVIDIA-H100クラスタに実装し,それぞれGPT2-2.5BとGPT2-12.1Bをトレーニングした。
その結果、EDGCはLLMの精度を維持しながら通信遅延とトレーニング時間を最大46.45%と16.13%削減することがわかった。
関連論文リスト
- Adacc: An Adaptive Framework Unifying Compression and Activation Recomputation for LLM Training [40.371351103295765]
大きな言語モデル(LLM)のトレーニングは、GPUメモリの制限によって制限されることが多い。
Adaccはアクティベーション再計算とデータ圧縮を統合する最初の適応型メモリ最適化フレームワークである。
Adaccは、最先端のフレームワークと比較して、トレーニングのスループットを1.01倍から1.37倍改善している。
論文 参考訳(メタデータ) (2025-08-01T17:39:25Z) - TAGC: Optimizing Gradient Communication in Distributed Transformer Training [0.0]
Transformer-Aware Gradient Compression (TAGC) は、トランスフォーマーモデルのための最適化された勾配圧縮アルゴリズムである。
TAGCは,FSDP(Fully Sharded Data Parallel)アプローチと比較して,トレーニングを最大15%高速化することを示す。
論文 参考訳(メタデータ) (2025-04-08T03:33:39Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [56.00251589760559]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
実験により、LM-GCは既存の最先端のロスレス圧縮手法を超越していることが示された。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - Accelerating Large Language Model Training with Hybrid GPU-based Compression [3.204387803072905]
MPIライブラリはメッセージサイズを大幅に削減し、相互接続帯域幅を活用することが証明されている。
分散大言語モデル(LLM)学習における圧縮支援型MPI集団の有効性について検討した。
論文 参考訳(メタデータ) (2024-09-04T04:05:30Z) - LoCo: Low-Bit Communication Adaptor for Large-scale Model Training [63.040522637816906]
低ビット通信は、しばしば圧縮情報損失によってトレーニング品質が低下する。
本稿では,ローカルGPUノードを補償するLoCo(Lo-bit Communication Adaptor)を提案する。
実験結果から,Megatron-LMやPyTorchs FSDPといった大規模トレーニングモデルフレームワークの移動により,LoCoは圧縮通信効率を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-07-05T13:01:36Z) - Quantize Once, Train Fast: Allreduce-Compatible Compression with Provable Guarantees [53.950234267704]
我々は、全リデュース勾配互換量子化法であるGlobal-QSGDを紹介する。
ベースライン量子化法で最大3.51%の分散トレーニングを高速化することを示す。
論文 参考訳(メタデータ) (2023-05-29T21:32:15Z) - L-GreCo: Layerwise-Adaptive Gradient Compression for Efficient and
Accurate Deep Learning [24.712888488317816]
トレーニング中にモデルの層をまたいだ圧縮の度合いを動的に適用するためのフレームワークを提供する。
我々のフレームワークはL-GreCoと呼ばれ、モデル層に対する最適圧縮パラメータを自動的に選択する適応アルゴリズムに基づいている。
論文 参考訳(メタデータ) (2022-10-31T14:37:41Z) - Compressed Communication for Distributed Training: Adaptive Methods and
System [13.244482588437972]
通信オーバーヘッドは、分散機械学習システムのスケーラビリティを著しく妨げます。
近年,通信オーバーヘッドを低減するために勾配圧縮を使うことへの関心が高まっている。
本稿では, グラデーション圧縮を用いた新しい適応勾配法を提案する。
論文 参考訳(メタデータ) (2021-05-17T13:41:47Z) - An Efficient Statistical-based Gradient Compression Technique for
Distributed Training Systems [77.88178159830905]
Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。
SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
論文 参考訳(メタデータ) (2021-01-26T13:06:00Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。