論文の概要: High-speed Networking for Giga-Scale AI Factories
- arxiv url: http://arxiv.org/abs/2605.21187v1
- Date: Wed, 20 May 2026 13:52:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:41.915106
- Title: High-speed Networking for Giga-Scale AI Factories
- Title(参考訳): ギガスケールAIファクトリの高速ネットワーク化
- Authors: Sajy Khashab, Albert Gran Alcoz, Alon Gal, Jacky Romano, Rani Abboud, Yonatan Piasetzky, Lior Maman, Amit Nishry, Barak Gafni, Omer Shabtai, Matty Kadosh, Dror Goldenberg, Gilad Shainer, Mark Silberstein,
- Abstract要約: NVIDIA Spectrum-X Ethernetは、予測可能で安定したネットワーク性能を実現するために、ゼロから設計されている。
本稿では、最先端ベンチマークにおけるモチベーション、設計原則、評価方法論、性能について述べる。
- 参考スコア(独自算出の注目度): 4.074547292920061
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As distributed model training scales to span hundreds of thousands of GPUs, scale-out networks face unprecedented performance and efficiency demands. NVIDIA Spectrum-X Ethernet has been designed from the ground up to achieve predictable and stable network performance with high utilization and low latency. This paper presents the Spectrum-X multiplane architecture, which replaces hierarchical depth with topological parallelism, and introduces hardware-accelerated load balancing in NICs and switches as the key architectural approach to provide fast reaction to highly dynamic network conditions at the microsecond timescales that AI training workloads demand. We describe the motivation, design principles, evaluation methodology and performance on state-of-the-art benchmarks, as well as the lessons we learned from deploying and debugging Spectrum-X networks in large-scale systems. Our evaluation highlights production-grade AI infrastructure performance across three core dimensions: 98% of the theoretical line rate with low jitter-free latency; strong cross-tenant isolation for concurrent workloads; robust, capacity-proportional bisection bandwidth and 7% latency increase for 10% fabric link failures; and rapid reaction to host and fabric link flaps during LLM training workloads.
- Abstract(参考訳): 分散モデルトレーニングが数十万のGPUにスケールするにつれ、スケールアウトネットワークは前例のないパフォーマンスと効率性の要求に直面している。
NVIDIA Spectrum-X Ethernetは、高い利用率と低レイテンシで予測可能で安定したネットワーク性能を実現するために、ゼロから設計されている。
本稿では,階層的な深度をトポロジカル並列性に置き換えたSpectrum-Xマルチプレーンアーキテクチャを提案する。また,ハードウェアアクセラレーションによるNICとスイッチの負荷分散を重要アーキテクチャとして導入し,AIトレーニングワークロードが要求するマイクロ秒タイムスケールでの高動的ネットワーク条件に対する迅速な応答を提供する。
我々は、大規模システムにおけるSpectrum-Xネットワークのデプロイとデバッグから学んだ教訓と同様に、最先端ベンチマークにおけるモチベーション、設計原則、評価方法論、パフォーマンスについて説明する。
評価では,低ジッタフリーレイテンシによる理論的ラインレートの98%,並列ワークロードに対する強力なテナントアイソレーション,堅牢でキャパシティに比例した2分割帯域幅と7%のレイテンシ向上,LLMトレーニングワークロードにおけるホストおよびファブリックリンクフラップに対する迅速な反応,3つの中核領域にわたるプロダクショングレードAIインフラストラクチャのパフォーマンスを強調した。
関連論文リスト
- AEBNAS: Strengthening Exit Branches in Early-Exit Networks through Hardware-Aware Neural Architecture Search [0.8793721044482612]
早期排他的ネットワークは、ディープラーニングモデルの全体的なエネルギー消費とレイテンシを低減する効果的なソリューションである。
最近の研究は、より効率的なアーリーエグジットネットワークの設計にニューラルアーキテクチャサーチ(NAS)を利用している。
本稿では,ハードウェア対応NASを用いて,最適化時の精度と効率性を両立させ,出口分岐を強化する。
論文 参考訳(メタデータ) (2025-12-11T14:17:49Z) - Accelerating Linear Recurrent Neural Networks for the Edge with Unstructured Sparsity [39.483346492111515]
線形リカレントニューラルネットワークは、推論中に一定のメモリ使用量と時間毎の時間を含む強力な長距離シーケンスモデリングを可能にする。
非構造化空間は、互換性のあるハードウェアプラットフォームによって加速されるときに、計算とメモリの要求を大幅に削減できる魅力的なソリューションを提供する。
非常に疎い線形RNNは、高密度ベースラインよりも高い効率と性能のトレードオフを一貫して達成している。
論文 参考訳(メタデータ) (2025-02-03T13:09:21Z) - DeepSpeed-FastGen: High-throughput Text Generation for LLMs via MII and
DeepSpeed-Inference [23.49242865222089]
本稿では,最大2.3倍高いスループット,平均2倍のレイテンシ,最大3.7倍のテールレイテンシを実現するシステムであるDeepSpeed-FastGenを紹介する。
我々は、DeepSpeed-MIIとDeepSpeed-Inferenceの相乗的組み合わせを利用して、大規模言語モデルのための効率的で使いやすいサービスシステムを提供する。
論文 参考訳(メタデータ) (2024-01-09T06:49:40Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - HAPI: Hardware-Aware Progressive Inference [18.214367595727037]
畳み込みニューラルネットワーク(CNN)は最近、AIタスクの多様性における最先端技術となっている。
その人気にもかかわらず、CNN推論は依然として高い計算コストがかかる。
本研究は,ハイパフォーマンス・アーリーエグジット・ネットワークを創出するための新しい手法であるHAPIを提案する。
論文 参考訳(メタデータ) (2020-08-10T09:55:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。