論文の概要: FlashCommunication V2: Bit Splitting and Spike Reserving for Any Bit Communication
- arxiv url: http://arxiv.org/abs/2508.03760v1
- Date: Mon, 04 Aug 2025 13:47:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.37464
- Title: FlashCommunication V2: Bit Splitting and Spike Reserving for Any Bit Communication
- Title(参考訳): FlashCommunication V2:あらゆるビット通信のためのビット分割とスパイク保存
- Authors: Qingyuan Li, Bo Zhang, Hui Kang, Tianhao Xu, Yulei Qian, Yuchen Xie, Lin Ma,
- Abstract要約: FlashCommunication V2は、任意のビット幅で効率的なGPU間伝送を可能にする新しい通信パラダイムである。
その中心となるイノベーションは、低ビット量子化の課題に対処する、提案されたビット分割とスパイク保存技術にある。
- 参考スコア(独自算出の注目度): 10.020972662976922
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Nowadays, communication bottlenecks have emerged as a critical challenge in the distributed training and deployment of large language models (LLMs). This paper introduces FlashCommunication V2, a novel communication paradigm enabling efficient cross-GPU transmission at arbitrary bit widths. Its core innovations lie in the proposed bit splitting and spike reserving techniques, which address the challenges of low-bit quantization. Bit splitting decomposes irregular bit widths into basic units, ensuring compatibility with hardware capabilities and thus enabling transmission at any bit width. Spike reserving, on the other hand, retains numerical outliers (i.e., minima and maxima) as floating-point numbers, which shrinks the dynamic numerical range and pushes the quantization limits to 2-bit with acceptable losses. FlashCommunication V2 significantly enhances the flexibility and resource utilization of communication systems. Through meticulous software-hardware co-design, it delivers robust performance and reduced overhead across both NVLink-based and PCIe-based architectures, achieving a maximum 3.2$\times$ speedup in AllReduce and 2$\times$ in All2All communication.
- Abstract(参考訳): 今日では、大きな言語モデル(LLM)の分散トレーニングとデプロイにおいて、コミュニケーションボトルネックが重要な課題として現れています。
本稿では,任意のビット幅で効率的なGPU伝送を実現する新しい通信パラダイムであるFlashCommunication V2を紹介する。
その中心となるイノベーションは、低ビット量子化の課題に対処する、提案されたビット分割とスパイク保存技術にある。
ビット分割は不規則なビット幅を基本単位に分解し、ハードウェア機能との互換性を確保し、任意のビット幅で伝送を可能にする。
一方、スパイク保存は浮動小数点数として数値的な外れ値(ミニマとマキシマ)を保持しており、これは動的数値範囲を縮小し、量子化限界を許容される損失で2ビットに抑える。
FlashCommunication V2は、通信システムの柔軟性とリソース利用を著しく向上させる。
厳密なソフトウェアハードウェアの共同設計を通じて、NVLinkベースのアーキテクチャとPCIeベースのアーキテクチャの両方で堅牢なパフォーマンスとオーバーヘッドを低減し、AllReduceの最大3.2$\times$スピードアップとAll2All通信の2$\times$を達成する。
関連論文リスト
- FlashOverlap: A Lightweight Design for Efficiently Overlapping Communication and Computation [6.284874558004134]
我々は,タイルワイドオーバーラップ,干渉のない計算,通信非依存を特徴とする軽量な設計であるFlashOverlapを提案する。
実験の結果、このような軽量な設計は最大1.65倍のスピードアップを実現しており、ほとんどの場合、既存の作業よりも優れていた。
論文 参考訳(メタデータ) (2025-04-28T06:37:57Z) - Communication-Efficient Federated Learning by Quantized Variance Reduction for Heterogeneous Wireless Edge Networks [55.467288506826755]
フェデレーテッド・ラーニング(FL)は、無線エッジネットワークにおけるローカル・プライバシ・アウェア・コラボレーティブ・モデルトレーニングの有効なソリューションとして認識されている。
既存の通信効率の高いFLアルゴリズムは、デバイス間の大きなばらつきを低減できない。
本稿では,高度分散還元方式に依存する新しい通信効率FLアルゴリズムであるFedQVRを提案する。
論文 参考訳(メタデータ) (2025-01-20T04:26:21Z) - Flash Communication: Reducing Tensor Parallelization Bottleneck for Fast Large Language Model Inference [14.805702987440512]
我々は、推論中にテンソル並列通信のボトルネックを軽減するために設計された、新しい低ビット圧縮技術であるFlash Communicationを紹介する。
提案手法は,ノード内通信速度を3倍以上に向上し,モデル精度を犠牲にすることなく,第1トーケンを2倍に削減する。
論文 参考訳(メタデータ) (2024-12-06T11:29:32Z) - BiFSMNv2: Pushing Binary Neural Networks for Keyword Spotting to
Real-Network Performance [54.214426436283134]
Deep-FSMNのようなディープニューラルネットワークはキーワードスポッティング(KWS)アプリケーションのために広く研究されている。
我々は、KWS、すなわちBiFSMNv2のための強力で効率的なバイナリニューラルネットワークを提示し、それを実ネットワーク精度のパフォーマンスにプッシュする。
小型アーキテクチャと最適化されたハードウェアカーネルの利点により、BiFSMNv2は25.1倍のスピードアップと20.2倍のストレージ節約を実現できる。
論文 参考訳(メタデータ) (2022-11-13T18:31:45Z) - REx: Data-Free Residual Quantization Error Expansion [32.87131159997359]
ディープニューラルネットワーク(DNN)はコンピュータビジョンや自然言語処理においてユビキタスであるが、高い推論コストに悩まされている。
プライバシの権利に関する懸念が高まる中、私たちはデータフリーな方法に注力しています。
本稿では,残差展開とグループ間隔,アンサンブル近似を併用した並列化手法RExを提案する。
論文 参考訳(メタデータ) (2022-03-28T11:04:45Z) - SlimFL: Federated Learning with Superposition Coding over Slimmable
Neural Networks [56.68149211499535]
フェデレートラーニング(FL)は、デバイスの分散コンピューティング機能を活用した効率的なコミュニケーションとコンピューティングのための重要な実現手段である。
本稿では、FLと幅調整可能なスリムブルニューラルネットワーク(SNN)を統合した新しい学習フレームワークを提案する。
局所モデル更新のためのグローバルモデル集約と重ね合わせ訓練(ST)に重ね合わせ符号化(SC)を併用した通信およびエネルギー効率の高いSNNベースFL(SlimFL)を提案する。
論文 参考訳(メタデータ) (2022-03-26T15:06:13Z) - BiFSMN: Binary Neural Network for Keyword Spotting [47.46397208920726]
BiFSMNは、KWSのための正確かつ極効率のバイナリニューラルネットワークである。
実世界のエッジハードウェアにおいて,BiFSMNは22.3倍の高速化と15.5倍のストレージ節約を実現可能であることを示す。
論文 参考訳(メタデータ) (2022-02-14T05:16:53Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Communication and Energy Efficient Slimmable Federated Learning via
Superposition Coding and Successive Decoding [55.58665303852148]
フェデレートラーニング(FL)は、生データの代わりにローカルにトレーニングされたモデルを交換することで、プライベートデータを利用する大きな可能性を持っている。
我々はSlimFLという新しいエネルギー・通信効率のFLフレームワークを提案する。
SlimFLは0.5$xモデルと1.0$xモデルの両方を適切な精度と収束速度で同時に訓練できることを示す。
論文 参考訳(メタデータ) (2021-12-05T13:35:26Z) - Low-Latency Federated Learning over Wireless Channels with Differential
Privacy [142.5983499872664]
フェデレートラーニング(FL)では、モデルトレーニングはクライアントに分散し、ローカルモデルは中央サーバによって集約される。
本稿では,各クライアントの差分プライバシ(DP)要件だけでなく,全体としてのトレーニング性能に制約された無線チャネル上でのFLトレーニング遅延を最小限に抑えることを目的とする。
論文 参考訳(メタデータ) (2021-06-20T13:51:18Z) - 1-bit LAMB: Communication Efficient Large-Scale Large-Batch Training
with LAMB's Convergence Speed [17.953619054149378]
通信を圧縮した場合でも適応層学習率をサポートする新しい通信効率の高い1ビットラムを提案する。
バッチサイズが8Kから64KのBERT-Large事前学習タスクでは,NCCLベースのバックエンドを持つ1ビットLAMBが最大4.6倍の通信量削減を実現可能であることを示す。
論文 参考訳(メタデータ) (2021-04-13T10:07:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。