論文の概要: WaferLLM: A Wafer-Scale LLM Inference System
- arxiv url: http://arxiv.org/abs/2502.04563v2
- Date: Tue, 18 Feb 2025 12:16:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:03:45.516570
- Title: WaferLLM: A Wafer-Scale LLM Inference System
- Title(参考訳): WaferLLM: ウェハスケールLCM推論システム
- Authors: Congjie He, Yeqi Huang, Pei Mu, Ziming Miao, Jilong Xue, Lingxiao Ma, Fan Yang, Luo Mai,
- Abstract要約: 本稿では,最初のウェハスケールLLM推論システムであるWaferLLMを紹介する。
WaferLLMは、ウェハスケールアーキテクチャのユニークなハードウェア特性をキャプチャする新しいPLMRモデルによってガイドされる。
MeshGEMMとMeshGEMVは、ウエハスケールのアクセラレーター上で効果的にスケールするために設計されたGEMMとGEMVの実装である。
- 参考スコア(独自算出の注目度): 6.4628925542153
- License:
- Abstract: Emerging AI accelerators increasingly adopt wafer-scale manufacturing technologies, integrating hundreds of thousands of AI cores in a mesh-based architecture with large distributed on-chip memory (tens of GB in total) and ultra-high on-chip memory bandwidth (tens of PB/s). However, current LLM inference systems, optimized for shared memory architectures like GPUs, fail to fully exploit these accelerators. We introduce WaferLLM, the first wafer-scale LLM inference system. WaferLLM is guided by a novel PLMR model (pronounced as "Plummer") that captures the unique hardware characteristics of wafer-scale architectures. Leveraging this model, WaferLLM pioneers wafer-scale LLM parallelism, optimizing the utilization of hundreds of thousands of on-chip cores. It also introduces MeshGEMM and MeshGEMV, the first GEMM and GEMV implementations designed to scale effectively on wafer-scale accelerators. Evaluations show that WaferLLM achieves 200$\times$ better wafer-scale accelerator utilization than state-of-the-art systems. On a commodity wafer-scale accelerator, WaferLLM delivers 606$\times$ faster and 22$\times$ more energy-efficient GEMV compared to an advanced GPU. For LLMs, based on 16-bit data type, WaferLLM achieves 2700 toks/sec/req decode speed on Llama3-8B model and 840 toks/sec/req decode speed on Qwen2-72B model, which enables 39$\times$ faster decoding with 1.7$\times$ better energy efficiency. We anticipate these numbers will grow significantly as wafer-scale AI models, software, and hardware continue to mature.
- Abstract(参考訳): 数十万のAIコアをメッシュベースのアーキテクチャに統合し、大規模な分散オンチップメモリ(総GB数)と超高オンチップメモリ帯域幅(PB/s数)を備える。
しかし、GPUのような共有メモリアーキテクチャに最適化された現在のLLM推論システムは、これらのアクセラレータを完全に活用することができない。
本稿では,最初のウェハスケールLLM推論システムであるWaferLLMを紹介する。
WaferLLMは、ウェハスケールアーキテクチャのユニークなハードウェア特性を捉える新しいPLMRモデル("Plummer"と発音する)でガイドされている。
このモデルを活用することで、WaferLLMは数十万のオンチップコアの利用を最適化し、ウェハスケールのLCM並列化を開拓した。
MeshGEMMとMeshGEMVは、ウェハスケールの加速器上で効果的にスケールするために設計されたGEMMとGEMVの最初の実装である。
評価の結果,WaferLLMは最先端システムよりも200$\times$優れたウェハスケールアクセラレータ利用を実現している。
WaferLLMは、コモディティウェハスケールのアクセラレーターで606$\times$高速で22$\times$高効率GEMVを提供する。
16ビットのデータ型に基づいて、WaferLLMはLlama3-8Bモデルで2700tk/sec/reqデコード速度、Qwen2-72Bモデルで840tk/sec/reqデコード速度を達成した。
私たちは、ウェハスケールのAIモデル、ソフトウェア、ハードウェアが成熟し続けるにつれて、これらの数字が大幅に増加すると予想しています。
関連論文リスト
- FlashInfer: Efficient and Customizable Attention Engine for LLM Inference Serving [9.386969461835433]
FlashInferは、大きな言語モデル(LLM)のためのカスタマイズ可能で効率的なアテンションエンジンである
ブロックスパースフォーマットと構成可能なフォーマットを使用して、KV-cacheストレージの不均一性に取り組むことで、メモリアクセスの最適化と冗長性の低減を実現している。
また、Just-In-TimeJITコンパイルによるさまざまな設定への適応を可能にする、カスタマイズ可能なアテンションテンプレートも提供する。
論文 参考訳(メタデータ) (2025-01-02T02:02:20Z) - FAMOUS: Flexible Accelerator for the Attention Mechanism of Transformer on UltraScale+ FPGAs [0.0]
Transformer Neural Network(TNN)は、自然言語処理(NLP)、機械翻訳、コンピュータビジョン(CV)など、幅広いアプリケーション領域に応用されている。
本稿では、フィールドプログラマブルゲートアレイ(FPGA)上でのTNNの重み付きマルチヘッドアテンション計算のためのフレキシブルハードウェアアクセラレータである textitFamous を提案する。
並列性を改善し、レイテンシを低減するために、処理要素とオンチップメモリの高利用に最適化されている。
論文 参考訳(メタデータ) (2024-09-21T05:25:46Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - Fast On-device LLM Inference with NPUs [10.80559106452755]
我々は、オンデバイスニューラルプロセッシングユニット(NPU)オフロードを利用した最初のLCM推論システムであるllm.npuについて述べる。
llm.npuは3つのレベルでプロンプトとモデルを再構築することで、NPUのオフロード効率を向上させる。
初めて、llm.npuは10億規模のモデルで1000トークン/秒以上のプリフィルを達成した。
論文 参考訳(メタデータ) (2024-07-08T12:20:45Z) - AI and Memory Wall [81.06494558184049]
メモリ帯域幅がデコーダモデルの主要なボトルネックとなることを示す。
私たちは、このメモリ制限を克服するためのモデルアーキテクチャ、トレーニング、デプロイメント戦略の再設計を主張します。
論文 参考訳(メタデータ) (2024-03-21T04:31:59Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - Efficient LLM Inference on CPUs [8.802223672775844]
大規模言語モデル(LLM)は、幅広いタスクにおいて、顕著なパフォーマンスと大きなポテンシャルを示してきた。
これらのモデルのデプロイは、天文学的なモデルパラメータの量のために困難でした。
LLMのデプロイをより効率的にするための効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-01T13:08:50Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Training Large Neural Networks with Constant Memory using a New
Execution Algorithm [0.5424799109837065]
L2L (layer-to-layer) と呼ばれる新しいリレー式実行手法を提案する。
L2Lは、単一の16GB V100と512GBのCPUメモリを持つマシンに最大500億のパラメータを適合させることができる。
論文 参考訳(メタデータ) (2020-02-13T17:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。