論文の概要: FlexLink: Boosting your NVLink Bandwidth by 27% without accuracy concern
- arxiv url: http://arxiv.org/abs/2510.15882v1
- Date: Sat, 30 Aug 2025 01:28:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.072469
- Title: FlexLink: Boosting your NVLink Bandwidth by 27% without accuracy concern
- Title(参考訳): FlexLink: 正確さを気にせずにNVLink帯域を27%増やす
- Authors: Ao Shen, Rui Zhang, Junping Zhao,
- Abstract要約: 現在のNCCLのようなノード間通信ライブラリは、典型的にはNVLinkのような単一の相互接続を使用する。
このアプローチは、特に主要な相互接続の帯域幅がボトルネックとなるH800 GPUのようなハードウェア上で、パフォーマンスシーリングを生成する。
我々は,これらの異種リンク(NVLink, PCIe, RDMA NICs)を単一高性能通信ファブリックに集約することにより,これを体系的に処理する最初の集合通信フレームワークであるFlexLinkを提案する。
- 参考スコア(独自算出の注目度): 6.878682073423881
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) continue to scale, multi-node deployment has become a necessity. Consequently, communication has become a critical performance bottleneck. Current intra-node communication libraries, like NCCL, typically make use of a single interconnect such as NVLink. This approach creates performance ceilings, especially on hardware like the H800 GPU where the primary interconnect's bandwidth can become a bottleneck, and leaves other hardware resources like PCIe and Remote Direct Memory Access (RDMA)-capable Network Interface Cards (NICs) largely idle during intensive workloads. We propose FlexLink, the first collective communication framework to the best of our knowledge designed to systematically address this by aggregating these heterogeneous links-NVLink, PCIe, and RDMA NICs-into a single, high-performance communication fabric. FlexLink employs an effective two-stage adaptive load balancing strategy that dynamically partitions communication traffic across all available links, ensuring that faster interconnects are not throttled by slower ones. On an 8-GPU H800 server, our design improves the bandwidth of collective operators such as AllReduce and AllGather by up to 26% and 27% over the NCCL baseline, respectively. This gain is achieved by offloading 2-22% of the total communication traffic to the previously underutilized PCIe and RDMA NICs. FlexLink provides these improvements as a lossless, drop-in replacement compatible with the NCCL API, ensuring easy adoption.
- Abstract(参考訳): 大規模言語モデル(LLM)のスケールアップが進むにつれ、マルチノードデプロイメントが求められている。
その結果、コミュニケーションは重要なパフォーマンスボトルネックになっています。
現在のNCCLのようなノード間通信ライブラリは、典型的にはNVLinkのような単一の相互接続を使用する。
このアプローチは、特にH800 GPUのようなハードウェア上で、主要な相互接続の帯域幅がボトルネックになり得るパフォーマンス天井を生成し、PCIeやRDMA(Remote Direct Memory Access)のような他のハードウェアリソースは、集中的なワークロード中にほとんどアイドル状態になる。
我々は,これらの異種リンク(NVLink, PCIe, RDMA NICs)を単一の高性能な通信ファブリックに集約することで,これを体系的に解決するための,私たちの知識を最大限に活用する最初の集合通信フレームワークFlexLinkを提案する。
FlexLinkは効果的な2段階適応型ロードバランシング戦略を採用しており、すべての利用可能なリンクで通信トラフィックを動的に分割し、高速な相互接続が遅いリンクによって妨げられないようにします。
8-GPU H800サーバ上では,AllReduceやAllGatherといった集合演算子の帯域幅を,NCCLベースライン上で最大26%,最大27%改善する。
この利益は、以前未使用であったPCIeとRDMA NICに通信トラフィック全体の2-22%をオフロードすることで達成される。
FlexLinkは、NCCL APIと互換性のある、損失のないドロップインの代替としてこれらの改善を提供し、容易に採用できるようにする。
関連論文リスト
- FlashCommunication V2: Bit Splitting and Spike Reserving for Any Bit Communication [10.020972662976922]
FlashCommunication V2は、任意のビット幅で効率的なGPU間伝送を可能にする新しい通信パラダイムである。
その中心となるイノベーションは、低ビット量子化の課題に対処する、提案されたビット分割とスパイク保存技術にある。
論文 参考訳(メタデータ) (2025-08-04T13:47:29Z) - BlockFFN: Towards End-Side Acceleration-Friendly Mixture-of-Experts with Chunk-Level Activation Sparsity [66.94629945519125]
我々は、新しいMoEアーキテクチャであるBlockFFNと、その効率的なトレーニングとデプロイメント技術を紹介します。
具体的には、ReLUアクティベーションとRMSNormを統合したルータを、微分可能かつ柔軟なルーティングに使用します。
次に、トークンレベルのスペーサ(TLS)とチャンクレベルのスペーサ(CLS)の両方を促進するために、CLS対応のトレーニング目標を設計し、BlockFFNをより加速しやすいものにした。
論文 参考訳(メタデータ) (2025-07-11T17:28:56Z) - COMPASS: A Compiler Framework for Resource-Constrained Crossbar-Array Based In-Memory Deep Learning Accelerators [6.172271429579593]
本稿では、資源制約付きクロスバーベース処理インメモリ(PIM)ディープニューラルネットワーク(DNN)アクセラレーターのためのコンパイラフレームワークを提案する。
本稿では,各パーティションをチップ上で高速化するために,各レイヤを分割する最適なパーティショニングを決定するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-12T11:31:25Z) - Core interface optimization for multi-core neuromorphic processors [5.391889175209394]
スパイキングニューラルネットワーク(SNN)は、低消費電力と低レイテンシを必要とするアプリケーションのエッジコンピューティングに対する有望なアプローチである。
大規模かつスケーラブルなSNNを実現するためには,効率的な非同期通信およびルーティングファブリックを開発する必要がある。
論文 参考訳(メタデータ) (2023-08-08T10:00:14Z) - Implementing Reinforcement Learning Datacenter Congestion Control in NVIDIA NICs [64.26714148634228]
渋滞制御 (CC) アルゴリズムの設計は非常に困難になる。
現在、計算能力に制限があるため、ネットワークデバイスにAIモデルをデプロイすることはできない。
我々は,近年の強化学習CCアルゴリズムに基づく計算軽度解を構築した。
論文 参考訳(メタデータ) (2022-07-05T20:42:24Z) - Data Streaming and Traffic Gathering in Mesh-based NoC for Deep Neural
Network Acceleration [7.455546102930911]
本稿では,1対多のトラフィックを高速化するために,一方/双方向のストリーミングバスを備えたメッシュアーキテクチャを提案する。
畳み込みレイヤのランタイムレイテンシの解析は、双方向ストリーミングアーキテクチャが一方的なストリーミングアーキテクチャよりも改善されていることを示している。
論文 参考訳(メタデータ) (2021-08-01T23:50:12Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z) - 1-bit LAMB: Communication Efficient Large-Scale Large-Batch Training
with LAMB's Convergence Speed [17.953619054149378]
通信を圧縮した場合でも適応層学習率をサポートする新しい通信効率の高い1ビットラムを提案する。
バッチサイズが8Kから64KのBERT-Large事前学習タスクでは,NCCLベースのバックエンドを持つ1ビットLAMBが最大4.6倍の通信量削減を実現可能であることを示す。
論文 参考訳(メタデータ) (2021-04-13T10:07:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。