論文の概要: Morphlux: Programmable chip-to-chip photonic fabrics in multi-accelerator servers for ML
- arxiv url: http://arxiv.org/abs/2508.03674v1
- Date: Sun, 20 Jul 2025 12:40:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-10 09:30:49.321596
- Title: Morphlux: Programmable chip-to-chip photonic fabrics in multi-accelerator servers for ML
- Title(参考訳): Morphlux:ML用マルチアクセラレータサーバにおけるプログラム可能なチップツーチップフォトニックファブリック
- Authors: Abhishek Vijaya Kumar, Eric Ding, Arjun Devraj, Rachee Singh,
- Abstract要約: サーバ内のアクセラレータを相互接続するための,サーバスケールのプログラマブルフォトニックファブリックであるMorphluxを開発した。
Morphluxはテナント計算割り当ての帯域幅を最大66%改善し、計算フラグメンテーションを最大70%削減することができる。
ハードウェアテストベッドでサーバスケールのファブリックを高速にプログラミングすることで、Morphluxは失敗したアクセラレータチップを1.2秒で置き換えることができます。
- 参考スコア(独自算出の注目度): 2.281165524297844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We optically interconnect accelerator chips (e.g., GPUs, TPUs) within compute servers using newly viable programmable chip-to-chip photonic fabrics. In contrast, today, commercial multi-accelerator compute servers that are workhorses of ML, use electrical interconnects to network accelerator chips in the server. However, recent trends have shown an interconnect bandwidth wall caused by accelerator FLOPS scaling at a faster rate than the bandwidth of the interconnect between accelerators in the same server. This has led to under-utilization and idling of GPU resources in cloud datacenters. We develop Morphlux, a server-scale programmable photonic fabric, to interconnect accelerators within servers. We show that augmenting state-of-the-art photonic ML-centric datacenters with Morphlux can improve the bandwidth of tenant compute allocations by up to 66% and reduce compute fragmentation by up to 70%. We develop a novel end-to-end hardware prototype of Morphlux to demonstrate these performance benefits, which translate to 1.72x improvement in training throughput of ML models. By rapidly programming the server-scale fabric in our hardware testbed, Morphlux can logically replace a failed accelerator chip in 1.2 seconds.
- Abstract(参考訳): 我々は,新たに実現可能なプログラム可能なチップ・ツー・チップ・フォトニック・ファブリックを用いて,コンピュータ・サーバ内のアクセラレータ・チップ(GPU,TPUなど)を光学的に相互接続する。
対照的に、今日では、MLのワークホースである商用マルチアクセラレータ計算サーバは、サーバ内のネットワークアクセラレータチップに電気的相互接続を使用する。
しかし最近の傾向は、アクセラレータFLOPSスケーリングによる相互接続の帯域幅の壁が、同じサーバ内のアクセラレータ間の相互接続の帯域幅よりも高速であることを示している。
これにより、クラウドデータセンタにおけるGPUリソースの未使用とアイドリングが実現した。
サーバ内のアクセラレータを相互接続する,サーバスケールのプログラマブルフォトニックファブリックであるMorphluxを開発した。
Morphluxによる最先端のフォトニックML中心データセンターの拡張により、テナント計算割り当ての帯域幅を最大66%改善し、計算フラグメンテーションを最大70%削減できることを示す。
MLモデルのトレーニングスループットが1.72倍向上したMorphluxの新たなエンドツーエンドハードウェアプロトタイプを開発した。
ハードウェアテストベッドでサーバスケールのファブリックを高速にプログラミングすることで、Morphluxは論理的に失敗したアクセラレータチップを1.2秒で置き換えることができます。
関連論文リスト
- FLUX: Fast Software-based Communication Overlap On GPUs Through Kernel Fusion [9.5114389643299]
本稿では,GPUに依存する計算で通信遅延を著しく隠蔽する新しいFlux法を提案する。
Fluxは核融合によって最大96%の通信を重複させる可能性がある。
全体としては、様々なGPU世代と相互接続を持つ128GPUのクラスタ上で、Megatron-LM上でのトレーニングのために、最大1.24倍のスピードアップを達成することができる。
論文 参考訳(メタデータ) (2024-06-11T00:17:39Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - AI and Memory Wall [81.06494558184049]
メモリ帯域幅がデコーダモデルの主要なボトルネックとなることを示す。
私たちは、このメモリ制限を克服するためのモデルアーキテクチャ、トレーニング、デプロイメント戦略の再設計を主張します。
論文 参考訳(メタデータ) (2024-03-21T04:31:59Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z) - UNeXt: MLP-based Rapid Medical Image Segmentation Network [80.16644725886968]
UNetとその最新の拡張であるTransUNetは、ここ数年で主要な医療画像分割手法である。
画像分割のための畳み込み多層パーセプトロンネットワークUNeXtを提案する。
パラメータ数を72倍に減らし,計算複雑性を68倍に減らし,推論速度を10倍に改善し,セグメンテーション性能も向上した。
論文 参考訳(メタデータ) (2022-03-09T18:58:22Z) - Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。
小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。
数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文 参考訳(メタデータ) (2022-01-16T07:22:47Z) - VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。
textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文 参考訳(メタデータ) (2021-05-04T04:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。