論文の概要: InfinitePOD: Building Datacenter-Scale High-Bandwidth Domain for LLM with Optical Circuit Switching Transceivers
- arxiv url: http://arxiv.org/abs/2502.03885v2
- Date: Fri, 07 Feb 2025 06:22:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 11:34:22.490545
- Title: InfinitePOD: Building Datacenter-Scale High-Bandwidth Domain for LLM with Optical Circuit Switching Transceivers
- Title(参考訳): InfinitePOD:光スイッチングトランシーバを用いたLCM用データセンタースケール高帯域ドメインの構築
- Authors: Chenchen Shou, Guyue Liu, Hao Nie, Huaiyu Meng, Yu Zhou, Yimin Jiang, Wenqing Lv, Yelong Xu, Yuanwei Lu, Zhang Chen, Yanbo Yu, Yichen Shen, Yibo Zhu, Daxin Jiang,
- Abstract要約: 光回路スイッチング(OCS)を用いたトランシーバレベルの接続性と動的切換を統一する新しいトランシーバ中心型HBDアーキテクチャを提案する。
各トランシーバにOCSを埋め込むことで、InfinitePODは再構成可能なポイント・ツー・マルチポイント接続を実現し、トポロジーを可変サイズのリングに適合させることができる。
InfinitePOD は NVL-72 のコストの31%、NVL-72 と TPUv4 よりも 1 桁低い)、ノード故障比 7% 以下の場合のほぼ 0 桁のクロスToR トラフィックを実現し、モデルFLOP の利用率を 3.37 倍改善する。
- 参考スコア(独自算出の注目度): 37.89954553921228
- License:
- Abstract: Scaling Large Language Model (LLM) training relies on multi-dimensional parallelism, where High-Bandwidth Domains (HBDs) are critical for communication-intensive parallelism like Tensor Parallelism (TP) and Expert Parallelism (EP). However, existing HBD architectures face fundamental limitations in scalability, cost, and fault resiliency: switch-centric HBDs (e.g., NVL-72) incur prohibitive scaling costs, while GPU-centric HBDs (e.g., TPUv3/Dojo) suffer from severe fault propagation. Switch-GPU hybrid HBDs such as TPUv4 takes a middle-ground approach by leveraging Optical Circuit Switches, but the fault explosion radius remains large at the cube level (e.g., 64 TPUs). We propose InfinitePOD, a novel transceiver-centric HBD architecture that unifies connectivity and dynamic switching at the transceiver level using Optical Circuit Switching (OCS). By embedding OCS within each transceiver, InfinitePOD achieves reconfigurable point-to-multipoint connectivity, allowing the topology to adapt into variable-size rings. This design provides: i) datacenter-wide scalability without cost explosion; ii) fault resilience by isolating failures to a single node, and iii) full bandwidth utilization for fault-free GPUs. Key innovations include a Silicon Photonic (SiPh) based low-cost OCS transceiver (OCSTrx), a reconfigurable k-hop ring topology co-designed with intra-/inter-node communication, and an HBD-DCN orchestration algorithm maximizing GPU utilization while minimizing cross-ToR datacenter network traffic. The evaluation demonstrates that InfinitePOD achieves 31% of the cost of NVL-72, near-zero GPU waste ratio (over one order of magnitude lower than NVL-72 and TPUv4), near-zero cross-ToR traffic when node fault ratios under 7%, and improves Model FLOPs Utilization by 3.37x compared to NVIDIA DGX (8 GPUs per Node).
- Abstract(参考訳): 大規模言語モデル(LLM)のトレーニングは多次元の並列性に依存しており、高帯域ドメイン(HBD)はテンソル並列性(TP)やエキスパート並列性(EP)といった通信集約並列性において重要である。
スイッチ中心のHBD(例:NVL-72)は、GPU中心のHBD(例:TPUv3/Dojo)は、重大な障害伝播に悩まされている。
TPUv4のようなスイッチ-GPUハイブリッドHBDは、光回路スイッチを利用することで中間的なアプローチを取るが、故障爆発半径は立方体レベルでは大きい(例:64 TPUs)。
我々は、光回路スイッチング(OCS)を用いて、トランシーバレベルの接続性と動的切換を統一する、新しいトランシーバ中心のHBDアーキテクチャであるInfinitePODを提案する。
各トランシーバにOCSを埋め込むことで、InfinitePODは再構成可能なポイント・ツー・マルチポイント接続を実現し、トポロジーを可変サイズのリングに適合させることができる。
この設計は以下の通りである。
一 コストの爆発のないデータセンター全体のスケーラビリティ
二 単一ノードへの障害の分離による耐障害性及び
三 故障のないGPUのフル帯域利用
重要なイノベーションとしては、SiPhベースの低価格OCSトランシーバ(OCSTrx)、ノード内通信とノード間通信を併用した再構成可能なkホップリングトポロジー、およびHBD-DCNオーケストレーションアルゴリズムがある。
評価の結果、InfinitePODはNVL-72のコストの31%、NVL-72とTPUv4よりも1桁低いGPU廃棄物率、ノード障害比が7%以下の場合のほぼゼロのクロスToRトラフィックを実現し、NVIDIA DGX(ノード当たり8GPU)と比較してモデルFLOPの利用率を3.37倍改善している。
関連論文リスト
- An Optical Interconnect for Modular Quantum Computers [0.44624755182670844]
量子コンピュータのスケールアップには 光学的相互接続が必要です
グループスイッチが計算終端ノードから出力される光子をルーティングする多群構造を提案する。
試作3ノードスイッチング配線を実装し,少なくとも0.6の忠実度を持つ2ホップ絡みを発生させる。
論文 参考訳(メタデータ) (2024-12-12T14:16:50Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Hyperdimensional Computing Empowered Federated Foundation Model over Wireless Networks for Metaverse [56.384390765357004]
本稿では,新しい基礎モデルのための統合型分割学習と超次元計算フレームワークを提案する。
この新しいアプローチは通信コスト、計算負荷、プライバシーリスクを低減し、Metaverseのリソース制約されたエッジデバイスに適している。
論文 参考訳(メタデータ) (2024-08-26T17:03:14Z) - Hierarchical Federated Learning in Wireless Networks: Pruning Tackles Bandwidth Scarcity and System Heterogeneity [32.321021292376315]
我々はヘテロジニアスネットワーク(HetNets)におけるプルーニング可能な階層型フェデレーションラーニング(PHFL)を提案する。
まず、モデルプルーニングと無線通信の影響を明確に示す収束率の上限を導出する。
提案するPHFLアルゴリズムの有効性を,テスト精度,壁面時計時間,エネルギー消費,帯域幅要件の観点から検証した。
論文 参考訳(メタデータ) (2023-08-03T07:03:33Z) - Marsellus: A Heterogeneous RISC-V AI-IoT End-Node SoC with 2-to-8b DNN
Acceleration and 30%-Boost Adaptive Body Biasing [11.27712965055613]
Marsellusは、GlobalFoundries 22nm FDXで製造されたAI-IoTエンドノード用の全デジタル異種システムである。
2ビットの精度演算では180 Gop/sか3.32 Top/s/W、ハードウェアアクセラレーションされたDNN層では最大637 Gop/sか12.4 Top/s/Wに達する。
論文 参考訳(メタデータ) (2023-05-15T07:48:50Z) - Non-Coherent Over-the-Air Decentralized Gradient Descent [0.0]
無線システムにおける分散グラディエントDescentの実装は、ノイズ、フェーディング、帯域幅の制限により困難である。
本稿では,スケジューリング,トポロジ情報,CSIの必要性を解消するスケーラブルなDGDアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-19T19:15:34Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z) - LCP: A Low-Communication Parallelization Method for Fast Neural Network
Inference in Image Recognition [33.581285906182075]
そこで本研究では, ほぼ独立な複数の枝と狭い枝からなるモデルを用いた低通信並列化手法を提案する。
当社では,AWSインスタンス,Raspberry Pi,PYNQボードという,3つの分散システムにLCPモデルをデプロイしています。
LCPモデルは、オリジナルのモデルと比べて56倍と7倍の平均的なスピードアップを達成し、平均的なスピードアップを33倍に改善することができた。
論文 参考訳(メタデータ) (2020-03-13T19:52:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。