論文の概要: A Scalable NorthPole System with End-to-End Vertical Integration for Low-Latency and Energy-Efficient LLM Inference
- arxiv url: http://arxiv.org/abs/2511.15950v1
- Date: Thu, 20 Nov 2025 00:53:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.40965
- Title: A Scalable NorthPole System with End-to-End Vertical Integration for Low-Latency and Energy-Efficient LLM Inference
- Title(参考訳): 低レイテンシかつエネルギー効率のLLM推論のためのエンドツーエンド垂直積分を用いたスケーラブルノースポールシステム
- Authors: Michael V. DeBole, Rathinakumar Appuswamy, Neil McGlohon, Brian Taba, Steven K. Esser, Filipp Akopyan, John V. Arthur, Arnon Amir, Alexander Andreopoulos, Peter J. Carlson, Andrew S. Cassidy, Pallab Datta, Myron D. Flickner, Rajamohan Gandhasri, Guillaume J. Garreau, Megumi Ito, Jennifer L. Klamo, Jeffrey A. Kusnitz, Nathaniel J. McClatchey, Jeffrey L. McKinstry, Tapan K. Nayak, Carlos Ortega Otero, Hartmut Penner, William P. Risk, Jun Sawada, Jay Sivagnaname, Daniel F. Smith, Rafael Sousa, Ignacio Terrizzano, Takanori Ueda, Trent Gray-Donald, David Cox, Dharmendra S. Modha,
- Abstract要約: このシステムは4ビット整数精度で115ペタオプと18の2Uサーバで3.7PB/sのメモリ帯域を提供する。
システムはスケーラブルでモジュール化され、再構成可能で、さまざまなモデルサイズとコンテキスト長をサポートする。
- 参考スコア(独自算出の注目度): 22.68022487714072
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A vertically integrated, end-to-end, research prototype system combines 288 NorthPole neural inference accelerator cards, offline training algorithms, a high-performance runtime stack, and a containerized inference pipeline to deliver a scalable and efficient cloud inference service. The system delivers 115 peta-ops at 4-bit integer precision and 3.7 PB/s of memory bandwidth across 18 2U servers, while consuming only 30 kW of power and weighing 730 kg in a 0.67 m^2 42U rack footprint. The system can run 3 simultaneous instances of the 8-billion-parameter open-source IBM Granite-3.3-8b-instruct model at 2,048 context length with 28 simultaneous users and a per-user inter-token latency of 2.8 ms. The system is scalable, modular, and reconfigurable, supporting various model sizes and context lengths, and is ideal for deploying agentic workflows for enterprise AI applications in existing data center (cloud, on-prem) environments. For example, the system can support 18 instances of a 3-billion-parameter model or a single instance of a 70-billion-parameter model.
- Abstract(参考訳): 垂直統合されたエンドツーエンドの研究プロトタイプシステムは、288 NorthPoleのニューラル推論アクセラレータカード、オフライントレーニングアルゴリズム、高性能ランタイムスタック、コンテナ化された推論パイプラインを組み合わせて、スケーラブルで効率的なクラウド推論サービスを提供する。
このシステムは4ビットの整数精度で115ペタオプと18の2Uサーバーで3.7PB/sのメモリ帯域を提供し、消費電力はわずか30kW、重量は730kgで0.67m^2 42Uである。
システムは,8ビリオンパラメータのオープンソースであるIBM Granite-3.3-8bインストラクトモデルの3つの同時インスタンスを,28人の同時ユーザによる2.048コンテキスト長で実行可能で,ユーザ毎のレイテンシは2.8msである。このシステムはスケーラブルでモジュール化され,再構成可能で,さまざまなモデルサイズとコンテキスト長をサポートするとともに,既存のデータセンタ(クラウド,オンプレミス)環境におけるエンタープライズAIアプリケーションのためのエージェントワークフローのデプロイに理想的だ。
例えば、システムは3ビリオンパラメータモデルの18のインスタンスや70ビリオンパラメータモデルの1のインスタンスをサポートすることができる。
関連論文リスト
- dInfer: An Efficient Inference Framework for Diffusion Language Models [54.80918957287927]
拡散に基づく大規模言語モデル (dLLM) は自己回帰(AR) LLM に代わる有望な代替品として登場した。
本稿では、dLLM推論のための効率的かつ効率的なフレームワークであるdInferについて述べる。
論文 参考訳(メタデータ) (2025-10-09T16:19:42Z) - TriLiteNet: Lightweight Model for Multi-Task Visual Perception [0.0]
TriLiteNetは低計算コストを維持しながら性能を最適化するように設計されている。
提案モデルでは,パラメータがわずか0.14Mの小さな構成で,最小限の計算量でマルチタスクのソリューションを提供する。
論文 参考訳(メタデータ) (2025-09-04T10:48:25Z) - Scalable Engine and the Performance of Different LLM Models in a SLURM based HPC architecture [3.746889836344766]
本研究は、SLURM(Simple Linux Utility for Resource Management)に基づく高性能コンピューティングアーキテクチャについて詳述する。
動的リソーススケジューリングとコンテナ化のシームレスな統合は、CPU、GPU、メモリをマルチノードクラスタで効率的に管理するために活用されている。
その結果,大規模HPCインフラストラクチャ上でのLLM推論は,より効率的で応答性が高く,耐故障性に優れた。
論文 参考訳(メタデータ) (2025-08-25T09:11:27Z) - Serving Large Language Models on Huawei CloudMatrix384 [28.88558053380112]
従来のAIクラスタは、計算強度、メモリ帯域幅、チップ間通信、レイテンシの制限に直面している。
本稿では,Huawei CloudMatrixを紹介する。Huawei CloudMatrixは,プロダクショングレードのCloudMatrix384スーパーノードで実現された次世代AIアーキテクチャである。
384 Ascend 910 NPUと192 Kunpeng CPUを超広帯域統一バス(UB)ネットワークを介して相互接続し、直接通信とリソースの動的プールを可能にする。
論文 参考訳(メタデータ) (2025-06-15T03:41:34Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - Ultra-low Power Deep Learning-based Monocular Relative Localization
Onboard Nano-quadrotors [64.68349896377629]
この研究は、2つのピアナノドロンのディープニューラルネットワーク(DNN)を介して、単分子の相対的な局所化に対処する、新しい自律的なエンドツーエンドシステムを示す。
超制約ナノドローンプラットフォームに対処するため,データセットの増大,量子化,システム最適化などを含む垂直統合フレームワークを提案する。
実験の結果,DNNは低分解能モノクローム画像のみを用いて最大2mの距離で10cmのターゲットナノドローンを正確に局在させることができることがわかった。
論文 参考訳(メタデータ) (2023-03-03T14:14:08Z) - RAMP: A Flat Nanosecond Optical Network and MPI Operations for
Distributed Deep Learning Systems [68.8204255655161]
我々は、RAMPと呼ばれるナノ秒再構成による、ほぼスケール、全2分割帯域、オールツーオール、シングルホップ、オール光学ネットワークアーキテクチャを導入する。
RAMPは、最大65,536ノードで1ノードあたり12.8Tbpsの大規模分散並列コンピューティングシステムをサポートしている。
論文 参考訳(メタデータ) (2022-11-28T11:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。