論文の概要: SambaNova SN40L: Scaling the AI Memory Wall with Dataflow and Composition of Experts
- arxiv url: http://arxiv.org/abs/2405.07518v1
- Date: Mon, 13 May 2024 07:32:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 14:34:42.533056
- Title: SambaNova SN40L: Scaling the AI Memory Wall with Dataflow and Composition of Experts
- Title(参考訳): SambaNova SN40L: データフローによるAIメモリウォールのスケーリングとエキスパートのコンポジション
- Authors: Raghu Prabhakar, Ram Sivaramakrishnan, Darshan Gandhi, Yun Du, Mingran Wang, Xiangyu Song, Kejie Zhang, Tianren Gao, Angela Wang, Karen Li, Yongning Sheng, Joshua Brot, Denis Sokolov, Apurv Vivek, Calvin Leung, Arjun Sabnis, Jiayu Bai, Tuowen Zhao, Mark Gottscho, David Jackson, Mark Luttrell, Manish K. Shah, Edison Chen, Kaizhao Liang, Swayambhoo Jain, Urmish Thakker, Dawei Huang, Sumti Jairath, Kevin J. Brown, Kunle Olukotun,
- Abstract要約: GPT-4のようなモノリシックな大規模言語モデル(LLM)は、近代的な生成AIアプリケーションへの道を開いた。
現代のAIアクセラレーターの計算-メモリ比の不均等な増加は、メモリウォールを生み出した。
コンポジション・オブ・エキスパート(CoE)は、トレーニングと提供のコストと複雑さを下げる代替のモジュラーアプローチである。
- 参考スコア(独自算出の注目度): 9.94373711477696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monolithic large language models (LLMs) like GPT-4 have paved the way for modern generative AI applications. Training, serving, and maintaining monolithic LLMs at scale, however, remains prohibitively expensive and challenging. The disproportionate increase in compute-to-memory ratio of modern AI accelerators have created a memory wall, necessitating new methods to deploy AI. Composition of Experts (CoE) is an alternative modular approach that lowers the cost and complexity of training and serving. However, this approach presents two key challenges when using conventional hardware: (1) without fused operations, smaller models have lower operational intensity, which makes high utilization more challenging to achieve; and (2) hosting a large number of models can be either prohibitively expensive or slow when dynamically switching between them. In this paper, we describe how combining CoE, streaming dataflow, and a three-tier memory system scales the AI memory wall. We describe Samba-CoE, a CoE system with 150 experts and a trillion total parameters. We deploy Samba-CoE on the SambaNova SN40L Reconfigurable Dataflow Unit (RDU) - a commercial dataflow accelerator architecture that has been co-designed for enterprise inference and training applications. The chip introduces a new three-tier memory system with on-chip distributed SRAM, on-package HBM, and off-package DDR DRAM. A dedicated inter-RDU network enables scaling up and out over multiple sockets. We demonstrate speedups ranging from 2x to 13x on various benchmarks running on eight RDU sockets compared with an unfused baseline. We show that for CoE inference deployments, the 8-socket RDU Node reduces machine footprint by up to 19x, speeds up model switching time by 15x to 31x, and achieves an overall speedup of 3.7x over a DGX H100 and 6.6x over a DGX A100.
- Abstract(参考訳): GPT-4のようなモノリシックな大規模言語モデル(LLM)は、近代的な生成AIアプリケーションへの道を開いた。
しかし、大規模にモノリシックLLMを訓練し、提供し、維持することは違法に高価で困難である。
現代のAIアクセラレーターの計算-メモリ比の不均等な増加は、AIをデプロイする新しい方法を必要とするメモリウォールを生み出した。
コンポジション・オブ・エキスパート(CoE)は、トレーニングと提供のコストと複雑さを下げる代替のモジュラーアプローチである。
しかし,本手法では, 従来のハードウェアを使用する場合, 1) 小型モデルでは操作強度が低く, 高い利用率を実現することが困難であり, (2) 動的に切り替える場合, 大量のモデルをホストすることは違法にコストがかかるか遅いかのどちらかである。
本稿では,CoE,ストリーミングデータフロー,および3層メモリシステムを組み合わせることで,AIメモリウォールをスケールする方法について述べる。
我々は150のエキスパートと1兆の総パラメータを持つCoEシステムであるSamba-CoEについて述べる。
SambaNova SN40L Reconfigurable Dataflow Unit (RDU)にSamba-CoEをデプロイします。
このチップは、オンチップ分散SRAM、オンパッケージHBM、オフパッケージDDR DRAMを備えた新しい3層メモリシステムを導入している。
専用のRDUネットワークは、複数のソケットのスケールアップとスケールアウトを可能にする。
本研究では,8つのRDUソケット上で動作しているベンチマークにおいて,未使用のベースラインと比較して2倍から13倍のスピードアップを示す。
CoEの推論デプロイメントでは、8ソケットRDUノードがマシンフットプリントを最大19倍に削減し、モデルの切り替え時間を15倍から31倍に短縮し、DGX H100よりも3.7倍、DGX A100よりも6.6倍のスピードアップを実現している。
関連論文リスト
- Harnessing Your DRAM and SSD for Sustainable and Accessible LLM Inference with Mixed-Precision and Multi-level Caching [35.83447642182576]
大規模言語モデル(LLM)は目覚ましい能力を示している。
LLMの展開は、現在のAIアプリケーションから排出される二酸化炭素の主要な部分である。
本稿では,古いハードウェア上でのLCM推論を可能にするモデルモジュール化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T08:33:39Z) - Fire-Flyer AI-HPC: A Cost-Effective Software-Hardware Co-Design for Deep Learning [49.997801914237094]
我々は、シナジスティックなハードウェアとソフトウェアの共同設計フレームワークであるFire-Flyer AI-HPCアーキテクチャとそのベストプラクティスを紹介する。
ディープラーニング(DL)トレーニングでは、1万のPCIe A100 GPUでFire-Flyer 2をデプロイし、DGX-A100の性能評価を達成し、コストを半分に削減し、エネルギー消費を40%削減しました。
HaiScaleや3FS,HAI-Platformといったソフトウェアスタックを通じて,計算処理と通信を重複させることで,大幅なスケーラビリティを実現しました。
論文 参考訳(メタデータ) (2024-08-26T10:11:56Z) - AI and Memory Wall [81.06494558184049]
メモリ帯域幅がデコーダモデルの主要なボトルネックとなることを示す。
私たちは、このメモリ制限を克服するためのモデルアーキテクチャ、トレーニング、デプロイメント戦略の再設計を主張します。
論文 参考訳(メタデータ) (2024-03-21T04:31:59Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - Harnessing Manycore Processors with Distributed Memory for Accelerated
Training of Sparse and Recurrent Models [43.1773057439246]
現在のAIトレーニングインフラストラクチャは、単一の命令多重データ(SIMD)とシストリック配列アーキテクチャによって支配されている。
分散ローカルメモリを用いた大規模並列多重命令型マルチデータアーキテクチャにおけるスパース・リカレントモデルトレーニングについて検討する。
論文 参考訳(メタデータ) (2023-11-07T23:18:35Z) - Fully $1\times1$ Convolutional Network for Lightweight Image
Super-Resolution [79.04007257606862]
ディープモデルは、シングルイメージ超解像(SISR)タスク、特に大きなカーネルを持つ大きなモデル(3時間3ドル以上)において重要なプロセスを持つ。
$1times1$の畳み込みは計算効率を大幅に向上させるが、局所的な空間表現の集約に苦労する。
我々は、Shift-Conv-based Network (SCNet) という、シンプルで効果的な1時間1ドルの畳み込みネットワークを提案する。
論文 参考訳(メタデータ) (2023-07-30T06:24:03Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - Towards MoE Deployment: Mitigating Inefficiencies in Mixture-of-Expert
(MoE) Inference [7.743308058511418]
言語モデリング(LM)と機械翻訳(MT)という2つのMoEワークロードの特徴を提供する。
本研究では,(1)動的ゲーティング,(2)エキスパートバッファリング,(3)エキスパートロードバランシングの3つの最適化手法を提案する。
論文 参考訳(メタデータ) (2023-03-10T19:30:15Z) - RAMP: A Flat Nanosecond Optical Network and MPI Operations for
Distributed Deep Learning Systems [68.8204255655161]
我々は、RAMPと呼ばれるナノ秒再構成による、ほぼスケール、全2分割帯域、オールツーオール、シングルホップ、オール光学ネットワークアーキテクチャを導入する。
RAMPは、最大65,536ノードで1ノードあたり12.8Tbpsの大規模分散並列コンピューティングシステムをサポートしている。
論文 参考訳(メタデータ) (2022-11-28T11:24:51Z) - Vau da muntanialas: Energy-efficient multi-die scalable acceleration of
RNN inference [18.50014427283814]
LSTM推論のためのRNN加速器アーキテクチャであるMuntanialaを3.25ドルTOP/s/W$のシリコン測定エネルギー効率で紹介する。
Muntaniala のスケーラブルな設計により,複数のタイルをサイストリック配列に組み合わせることで,大規模な RNN モデルの実行が可能になる。
3L-384NH-123NI LSTMネットワーク上での浮動小数点(FP)に対する音素誤り率(PER)の約3%の低下を示す。
論文 参考訳(メタデータ) (2022-02-14T09:21:16Z) - Training Large Neural Networks with Constant Memory using a New
Execution Algorithm [0.5424799109837065]
L2L (layer-to-layer) と呼ばれる新しいリレー式実行手法を提案する。
L2Lは、単一の16GB V100と512GBのCPUメモリを持つマシンに最大500億のパラメータを適合させることができる。
論文 参考訳(メタデータ) (2020-02-13T17:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。