Fugu-MT 論文翻訳(概要): DynamiQ: Accelerating Gradient Synchronization using Compressed Multi-hop All-reduce

論文の概要: DynamiQ: Accelerating Gradient Synchronization using Compressed Multi-hop All-reduce

arxiv url: http://arxiv.org/abs/2602.08923v1
Date: Mon, 09 Feb 2026 17:25:37 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-10 20:26:25.3968
Title: DynamiQ: Accelerating Gradient Synchronization using Compressed Multi-hop All-reduce
Title（参考訳）: DynamiQ:圧縮マルチホップオールリデューサによるグラディエント同期の高速化
Authors: Wenchen Han, Shay Vargaftik, Michael Mitzenmacher, Ran Ben Basat,
Abstract要約: マルチホップオールリデュース(Multi-hop all-reduce)は、大規模なモデルトレーニングの事実上のバックボーンである。近年のシステムでは、勾配量子化によるトレーニングプロセスの大幅な加速が示されている。本稿では,量子化のベストプラクティスとマルチホップアグリゲーションのギャップを埋める量子化フレームワークDynamiQを提案する。
参考スコア（独自算出の注目度）: 15.377125001579467
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-hop all-reduce is the de facto backbone of large model training. As the training scale increases, the network often becomes a bottleneck, motivating reducing the volume of transmitted data. Accordingly, recent systems demonstrated significant acceleration of the training process using gradient quantization. However, these systems are not optimized for multi-hop aggregation, where entries are partially summed multiple times along their aggregation topology. This paper presents DynamiQ, a quantization framework that bridges the gap between quantization best practices and multi-hop aggregation. DynamiQ introduces novel techniques to better represent partial sums, co-designed with a decompress-accumulate-recompress fused kernel to facilitate fast execution. We extended PyTorch DDP to support DynamiQ over NCCL P2P, and across different LLMs, tasks, and scales, we demonstrate consistent improvement of up to 34.2% over the best among state-of-the-art methods such as Omni-Reduce, THC, and emerging standards such as MXFP4, MXFP6, and MXFP8. Further, DynamiQ is the only evaluated method that consistently reaches near-baseline accuracy (e.g., 99.9% of the BF16 baseline) and does so while significantly accelerating the training.
Abstract（参考訳）: マルチホップオールリデュース(Multi-hop all-reduce)は、大規模なモデルトレーニングの事実上のバックボーンである。トレーニングの規模が大きくなるにつれて、ネットワークはしばしばボトルネックとなり、送信されたデータの量を減らす動機となる。そのため,近年のシステムでは,勾配量子化によるトレーニングプロセスの大幅な高速化が示されている。しかし、これらのシステムはマルチホップアグリゲーションには最適化されていない。本稿では,量子化のベストプラクティスとマルチホップアグリゲーションのギャップを埋める量子化フレームワークDynamiQを提案する。 DynamiQは部分和をより良く表現するための新しいテクニックを導入し、高速な実行を容易にするためにデコンプレックス-累積-再圧縮の融合カーネルを共設計した。我々は、NCCL P2P上でDynamiQをサポートするためにPyTorch DDPを拡張し、Omni-Reduce、THC、MXFP4、MXFP6、MXFP8といった最先端の手法の中で最大34.2%の改善を実現した。さらに、DynamiQは、ほぼベースラインの精度(例えばBF16ベースラインの99.9%)に一貫して到達し、トレーニングを著しく加速する唯一の評価方法である。

関連論文リスト

Flexiffusion: Training-Free Segment-Wise Neural Architecture Search for Efficient Diffusion Models [50.260693393896716]
拡散モデル(DM)は高忠実度画像を生成できる強力な生成モデルであるが、高い計算コストで制約される。我々は、事前訓練されたパラメータを変更することなく、生成スケジュールとモデルアーキテクチャを協調的に最適化する、トレーニング不要なNASフレームワークFlexiffusionを提案する。我々の研究は、品質を犠牲にすることなく高速DMを検索するための資源効率の良いパラダイムを開拓した。
論文参考訳（メタデータ） (2025-06-03T06:02:50Z)
TCAQ-DM: Timestep-Channel Adaptive Quantization for Diffusion Models [49.65286242048452]
拡散モデル(TCAQ-DM)のためのタイムステップ・チャネル適応量子化法を提案する。提案手法は,ほとんどの場合,最先端の手法よりも優れている。
論文参考訳（メタデータ） (2024-12-21T16:57:54Z)
Retraining-free Model Quantization via One-Shot Weight-Coupling Learning [41.299675080384]
混合精度量子化(MPQ)は、層に不均一なビット幅を割り当てることで、モデルを効果的に圧縮することを提唱する。 MPQは典型的には、探索訓練された2段階のプロセスに編成される。本稿では,混合精度モデル圧縮のためのワンショットトレーニング探索パラダイムを考案する。
論文参考訳（メタデータ） (2024-01-03T05:26:57Z)
Quantize Once, Train Fast: Allreduce-Compatible Compression with Provable Guarantees [53.950234267704]
我々は、全リデュース勾配互換量子化法であるGlobal-QSGDを紹介する。ベースライン量子化法で最大3.51%の分散トレーニングを高速化することを示す。
論文参考訳（メタデータ） (2023-05-29T21:32:15Z)
Quantized Distributed Training of Large Models with Convergence Guarantees [34.054462975511996]
FSDPの変種であるQSDPを理論的保証とともに量子的および重み勾配化をサポートする。 QSDPはFSDPの通信を完全に削除し,最大2.2倍の高速化を実現している。
論文参考訳（メタデータ） (2023-02-05T14:20:55Z)
SDQ: Stochastic Differentiable Quantization with Mixed Precision [46.232003346732064]
本稿では,MPQ戦略を自動的に学習できる新しい微分可能量子化(SDQ)手法を提案する。最適なMPQ戦略が得られた後、エントロピーを意識したビン正規化と知識蒸留でネットワークを訓練する。 SDQは、最先端の混合データセット、または低いビット幅で単一精度の量子化よりも優れている。
論文参考訳（メタデータ） (2022-06-09T12:38:18Z)
Towards Efficient Post-training Quantization of Pre-trained Language Models [85.68317334241287]
PLMのポストトレーニング量子化(PTQ)について検討し,モジュール単位の量子化誤差最小化(MREM)を提案する。 GLUEとSQuADベンチマークの実験により、提案したPTQソリューションはQATに近く動作するだけでなく、トレーニング時間、メモリオーバーヘッド、データ消費を大幅に削減できることがわかった。
論文参考訳（メタデータ） (2021-09-30T12:50:06Z)
An Efficient Statistical-based Gradient Compression Technique for Distributed Training Systems [77.88178159830905]
Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。 SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
論文参考訳（メタデータ） (2021-01-26T13:06:00Z)
EasyQuant: Post-training Quantization via Scale Optimization [15.443708111143412]
8ビットの量子化は、様々なディープラーニングアプリケーションにおけるネットワーク推論の高速化に広く応用されている。量子化法には、トレーニングベース量子化と後学習量子化の2種類がある。
論文参考訳（メタデータ） (2020-06-30T10:43:02Z)
Multi-Precision Policy Enforced Training (MuPPET): A precision-switching strategy for quantised fixed-point training of CNNs [13.83645579871775]
大規模な畳み込みニューラルネットワーク(CNN)は、数時間から数週間にわたる非常に長いトレーニング時間に悩まされる。この研究は、複数の精度を利用するマルチレベルアプローチを採用することで、定量化トレーニングの境界を押し上げる。 MuPPETは、トレーニング時のスピードアップを最大1.84$times$、ネットワーク全体の平均スピードアップを1.58$times$とすることで、通常の完全精度トレーニングと同じ精度を達成する。
論文参考訳（メタデータ） (2020-06-16T10:14:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。