論文の概要: Accelerating Frontier MoE Training with 3D Integrated Optics
- arxiv url: http://arxiv.org/abs/2510.15893v1
- Date: Tue, 09 Sep 2025 00:41:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.081355
- Title: Accelerating Frontier MoE Training with 3D Integrated Optics
- Title(参考訳): 3次元集積光学によるフロンティアモエトレーニングの高速化
- Authors: Mikhail Bernadskiy, Peter Carson, Thomas Graham, Taylor Groves, Ho John Lee, Eric Yeh,
- Abstract要約: 3Dスタックの光学とロジックは、数百のGPUパッケージを接続するための変換的で電力効率のよいスケールアップソリューションを提供する。
3次元CPOにより実現された帯域幅と基数を大幅に増加させることで,スケールアップ能力が8倍に向上することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The unabated growth in AI workload demands is driving the need for concerted advances in compute, memory, and interconnect performance. As traditional semiconductor scaling slows, high-speed interconnects have emerged as the new scaling engine, enabling the creation of larger logical GPUs by linking many GPUs into a single, low-latency, high-bandwidth compute domain. While initial scale-up fabrics leveraged copper interconnects for their power and cost advantages, the maximum reach of passive electrical interconnects (approximately 1 meter) effectively limits the scale-up domain to within a single rack. The advent of 3D-stacked optics and logic offers a transformative, power-efficient scale-up solution for connecting hundreds of GPU packages (thousands of GPUs) across multiple data center racks. This work explores the design tradeoffs of scale-up technologies and demonstrates how frontier LLMs necessitate novel photonic solutions to achieve aggressive power and performance targets. We model the benefits of 3D CPO (Passage) enabled GPUs and switches within the scale-up domain when training Frontier Mixture of Experts (MoE) models exceeding one trillion parameters. Our results show that the substantial increases in bandwidth and radix enabled by 3D CPO allow for an 8X increase in scale-up capability. This affords new opportunities for multi-dimensional parallelism within the scale-up domain and results in a 2.7X reduction in time-to-train, unlocking unprecedented model scaling.
- Abstract(参考訳): AIワークロードの未完成な増加は、計算、メモリ、相互接続のパフォーマンスにおいて、継続的な進歩の必要性を喚起している。
従来の半導体のスケーリングが遅くなるにつれて、高速な相互接続が新しいスケーリングエンジンとして登場し、多くのGPUを単一で低レイテンシで高帯域幅の計算ドメインにリンクすることで、より大きな論理GPUを作成できるようになった。
初期のスケールアップ・ファブリックは銅配線を利用して電力とコストの利点を生かしたが、パッシブ電気配線の最大到達距離(約1メートル)は、スケールアップドメインを1ラック以内で効果的に制限した。
3Dスタックの光学とロジックの出現は、数百のGPUパッケージ(数百のGPU)を複数のデータセンタラックに接続する、変革的で電力効率のよいスケールアップソリューションを提供する。
この研究は、スケールアップ技術の設計トレードオフを探求し、フロンティアのLLMが、攻撃的なパワーとパフォーマンス目標を達成するために、いかに新しいフォトニックソリューションを必要とするかを実証する。
We model the benefit of 3D CPO (Passage) enabled GPUs and switchs within the scale-up domain when training Frontier Mixture of Experts (MoE) models than one trillion parameters。
以上の結果から,3次元CPOにより実現された帯域幅と基数の増加により,スケールアップ能力が8倍に向上することが示唆された。
これにより、スケールアップ領域内での多次元並列性の新しい機会が得られ、2.7倍のタイム・トゥ・トレインが減少し、前例のないモデルスケーリングがアンロックされる。
関連論文リスト
- Distributed Equivariant Graph Neural Networks for Large-Scale Electronic Structure Prediction [76.62155593340763]
密度汎関数理論(DFT)データに基づいて訓練された等価グラフニューラルネットワーク(eGNN)は、前例のない規模で電子構造予測を行う可能性がある。
しかし、このタスクに必要なグラフ表現は密結合である傾向がある。
本稿では,直接GPU通信を利用する分散eGNNの実装と,入力グラフの分割戦略を提案する。
論文 参考訳(メタデータ) (2025-07-04T23:53:47Z) - MegaScale-Infer: Serving Mixture-of-Experts at Scale with Disaggregated Expert Parallelism [26.923312725688735]
Mixture-of-Experts (MoE)は、大規模言語モデル(LLM)をスケールし、性能を向上し、計算の複雑さを減らし、大きな可能性を誇示している。
大規模MOEモデルを提供するための効率よく費用効率の良いシステムであるMegaScale-Inferを提案する。
論文 参考訳(メタデータ) (2025-04-03T04:20:44Z) - Transolver++: An Accurate Neural Solver for PDEs on Million-Scale Geometries [67.63077028746191]
Transolver++は、百万のスケールでPDEを解くことができる、非常に並列で効率的なニューラルソルバである。
Transolver++は、シングルGPU入力能力を初めて100万ポイントに拡張する。
数百万スケールの高忠実度産業シミュレーションで20%以上の性能向上を実現している。
論文 参考訳(メタデータ) (2025-02-04T15:33:50Z) - Scaling Large Language Model Training on Frontier with Low-Bandwidth Partitioning [2.685330831042324]
通信コストを削減し,メモリ使用量を改善するため,ZeRO++の通信と最適化戦略の集合を提案する。
20B GPTモデルでは、ZeRO++の最大384 GCDと比較して1.71倍のTFLOPS増加、最大384 GCDのスケーリング効率は0.94である。
論文 参考訳(メタデータ) (2025-01-08T04:19:57Z) - MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - ExtremeMETA: High-speed Lightweight Image Segmentation Model by Remodeling Multi-channel Metamaterial Imagers [8.976310466890805]
本稿では,ExtremeC3Netに基づくカーネル軽量セグメンテーションモデルExtremeMETAを提案する。
その結果、最適化された効率的な設計により、mIoUでのセグメンテーション性能は92.45から95.97に向上し、計算FLOPは461.07 MMacから166.03 MMacに低下した。
論文 参考訳(メタデータ) (2024-05-27T18:03:37Z) - EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense
Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。
マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。
EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-05-29T20:07:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。