論文の概要: Photonic Fabric Platform for AI Accelerators
- arxiv url: http://arxiv.org/abs/2507.14000v2
- Date: Mon, 21 Jul 2025 14:03:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 14:33:32.703927
- Title: Photonic Fabric Platform for AI Accelerators
- Title(参考訳): AIアクセラレータのためのフォトニックファブリックプラットフォーム
- Authors: Jing Ding, Trung Diep,
- Abstract要約: Photonic Fabric Appliance (PFA) は、低レイテンシ、高帯域幅、低ビットエネルギーを提供するフォトニック対応スイッチおよびメモリサブシステムである。
PFAは最大32TBの共有メモリと115Tbpsの全デジタルスイッチを提供する。
XPUのローカルスタックをPhotonic Fabricに接続するチップレットで置き換える。
- 参考スコア(独自算出の注目度): 0.844067337858849
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper presents the Photonic FabricTM and the Photonic Fabric ApplianceTM (PFA), a photonic-enabled switch and memory subsystem that delivers low latency, high bandwidth, and low per-bit energy. By integrating high-bandwidth HBM3E memory, an on-module photonic switch, and external DDR5 in a 2.5D electro-optical system-in-package, the PFA offers up to 32 TB of shared memory alongside 115 Tbps of all-to-all digital switching. The Photonic FabricTM enables distributed AI training and inference to execute parallelism strategies more efficiently. The Photonic Fabric removes the silicon beachfront constraint that limits the fixed memory-to-compute ratio observed in virtually all current XPU accelerator designs. Replacing a local HBM stack on an XPU with a chiplet that connects to the Photonic Fabric increases its memory capacity and correspondingly its memory bandwidth by offering a flexible path to scaling well beyond the limitations of on-package HBM alone. We introduce CelestiSim, a lightweight analytical simulator validated on NVIDIA H100 and H200 systems. It is used to evaluate the performance of LLM reference and energy savings on PFA, without any significant change to the GPU core design. With the PFA, the simulation results show that up to 3.66x throughput and 1.40x latency improvements in LLM inference at 405B parameters, up to 7.04x throughput and 1.41x latency improvements at 1T parameters, and 60-90% energy savings in data movement for heavy collective operations in all LLM training scenarios. While these results are shown for NVIDIA GPUs, they can be applied similarly to other AI accelerator designs (XPUs) that share the same fundamental limitation of fixed memory to compute.
- Abstract(参考訳): 本稿では,フォトニックファブリックTMとフォトニックファブリックアプライアンスTM(PFA)について述べる。
高帯域幅のHBM3Eメモリ、オンモジュールフォトニックスイッチ、および外部DDR5を2.5D電子光学式システムインパッケージに統合することにより、PFAは最大32TBの共有メモリと115Tbpsのデジタルスイッチを提供する。
Photonic FabricTMは、分散AIトレーニングと推論により、並列処理戦略をより効率的に実行することができる。
フォトニック・ファブリックはシリコンビーチフロントの制約を取り除き、現在のXPU加速器の設計で観測される固定メモリと計算比を制限する。
XPU上のローカルHBMスタックを、フォトニックファブリックに接続するチップレットで置き換えることで、そのメモリ容量とそれに対応するメモリ帯域幅が増大する。
本稿では,NVIDIA H100およびH200システム上で検証された軽量解析シミュレータであるCelestiSimを紹介する。
これは、GPUコア設計に大きな変更を加えることなく、PFA上でのLCM参照と省エネ性能を評価するために使用される。
PFAでは、最大3.66倍のスループットと405BパラメータでのLLM推論の1.40倍のレイテンシの改善、最大7.04倍のスループットと1Tパラメータでの1.41倍のレイテンシの改善、LLMトレーニングシナリオにおける重集団演算のデータ移動における60-90%の省エネが示される。
これらの結果はNVIDIA GPUで示されているが、計算に固定メモリと同じ基本的な制限を共有する他のAIアクセラレータ設計(XPU)と同様に適用することができる。
関連論文リスト
- COMPASS: A Compiler Framework for Resource-Constrained Crossbar-Array Based In-Memory Deep Learning Accelerators [6.172271429579593]
本稿では、資源制約付きクロスバーベース処理インメモリ(PIM)ディープニューラルネットワーク(DNN)アクセラレーターのためのコンパイラフレームワークを提案する。
本稿では,各パーティションをチップ上で高速化するために,各レイヤを分割する最適なパーティショニングを決定するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-12T11:31:25Z) - LiVOS: Light Video Object Segmentation with Gated Linear Matching [116.58237547253935]
LiVOSはリニアアテンションによるリニアマッチングを利用する軽量メモリネットワークである。
長くて高解像度のビデオでは、STMベースのメソッドと53%のGPUメモリで一致し、32Gの消費者向けGPU上で4096pの推論をサポートする。
論文 参考訳(メタデータ) (2024-11-05T05:36:17Z) - FAMOUS: Flexible Accelerator for the Attention Mechanism of Transformer on UltraScale+ FPGAs [0.0]
Transformer Neural Network(TNN)は、自然言語処理(NLP)、機械翻訳、コンピュータビジョン(CV)など、幅広いアプリケーション領域に応用されている。
本稿では、フィールドプログラマブルゲートアレイ(FPGA)上でのTNNの重み付きマルチヘッドアテンション計算のためのフレキシブルハードウェアアクセラレータである textitFamous を提案する。
並列性を改善し、レイテンシを低減するために、処理要素とオンチップメモリの高利用に最適化されている。
論文 参考訳(メタデータ) (2024-09-21T05:25:46Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。
バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文 参考訳(メタデータ) (2024-07-15T17:55:42Z) - Mamba-based Light Field Super-Resolution with Efficient Subspace Scanning [48.99361249764921]
4次元光場(LF)超解像において,トランスフォーマー法は優れた性能を示した。
しかし、その二次的な複雑さは、高解像度の4D入力の効率的な処理を妨げる。
我々は,効率的な部分空間走査戦略を設計し,マンバをベースとした光場超解法 MLFSR を提案する。
論文 参考訳(メタデータ) (2024-06-23T11:28:08Z) - A Cost-Efficient FPGA Implementation of Tiny Transformer Model using Neural ODE [0.8403582577557918]
Transformerは画像認識タスクに採用され、トレーニングコストと計算複雑性に悩まされているが、CNNやRNNよりも優れていた。
本稿では,ResNetの代わりにNeural ODEをバックボーンとして使用する軽量ハイブリッドモデルを提案する。
提案モデルは,エッジコンピューティングのための最小サイズのFPGAデバイス上に展開される。
論文 参考訳(メタデータ) (2024-01-05T09:32:39Z) - ACNPU: A 4.75TOPS/W 1080P@30FPS Super Resolution Accelerator with
Decoupled Asymmetric Convolution [0.0502254944841629]
深層学習駆動型超解像(SR)は従来の技術より優れているが、高複雑性とメモリ帯域幅の課題に直面している。
本稿では,エネルギー効率の高いSR加速器ACNPUを提案する。
ACNPUは27層モデルで画質を0.34dB向上させるが、FSRCNNよりも36%の複雑さを必要とする。
論文 参考訳(メタデータ) (2023-08-30T07:23:32Z) - RAMP: A Flat Nanosecond Optical Network and MPI Operations for
Distributed Deep Learning Systems [68.8204255655161]
我々は、RAMPと呼ばれるナノ秒再構成による、ほぼスケール、全2分割帯域、オールツーオール、シングルホップ、オール光学ネットワークアーキテクチャを導入する。
RAMPは、最大65,536ノードで1ノードあたり12.8Tbpsの大規模分散並列コンピューティングシステムをサポートしている。
論文 参考訳(メタデータ) (2022-11-28T11:24:51Z) - Interleaving: Modular architectures for fault-tolerant photonic quantum
computing [50.591267188664666]
フォトニック核融合型量子コンピューティング(FBQC)は低損失フォトニック遅延を用いる。
FBQCのモジュールアーキテクチャとして,これらのコンポーネントを結合して「インターリービングモジュール」を形成するアーキテクチャを提案する。
遅延の乗法的パワーを行使すると、各加群はヒルベルト空間に数千の物理量子ビットを加えることができる。
論文 参考訳(メタデータ) (2021-03-15T18:00:06Z) - Training Large Neural Networks with Constant Memory using a New
Execution Algorithm [0.5424799109837065]
L2L (layer-to-layer) と呼ばれる新しいリレー式実行手法を提案する。
L2Lは、単一の16GB V100と512GBのCPUメモリを持つマシンに最大500億のパラメータを適合させることができる。
論文 参考訳(メタデータ) (2020-02-13T17:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。