論文の概要: ArcLight: A Lightweight LLM Inference Architecture for Many-Core CPUs
- arxiv url: http://arxiv.org/abs/2603.07770v1
- Date: Sun, 08 Mar 2026 19:20:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.205904
- Title: ArcLight: A Lightweight LLM Inference Architecture for Many-Core CPUs
- Title(参考訳): ArcLight: マルチコアCPUのための軽量LLM推論アーキテクチャ
- Authors: Yuzhuang Xu, Xu Han, Yuxuan Li, Wanxiang Che,
- Abstract要約: ArcLightは、マルチコアCPU向けにゼロから設計された軽量LLM推論アーキテクチャである。
ArcLightは主要なフレームワークのパフォーマンス上限を大幅に上回り、最大46%の推論スループットを実現しています。
- 参考スコア(独自算出の注目度): 50.29619653515229
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although existing frameworks for large language model (LLM) inference on CPUs are mature, they fail to fully exploit the computation potential of many-core CPU platforms. Many-core CPUs are widely deployed in web servers and high-end networking devices, and are typically organized into multiple NUMA nodes that group cores and memory. Current frameworks largely overlook the substantial overhead of cross-NUMA memory access, limiting inference scalability and intelligence enabling on such platforms. To address this limitation, we build ArcLight, a lightweight LLM inference architecture designed from the ground up for many-core CPUs. ArcLight integrates efficient memory management and thread scheduling, and introduces finely controlled tensor parallelism to mitigate the cross-node memory access wall. Experimental results show that ArcLight significantly surpasses the performance ceiling of mainstream frameworks, achieving up to 46% higher inference throughput. Moreover, ArcLight maintains compatibility with arbitrary CPU devices. ArcLight is publicly available at https://github.com/OpenBMB/ArcLight.
- Abstract(参考訳): CPU上の大規模言語モデル(LLM)推論のための既存のフレームワークは成熟しているが、多コアCPUプラットフォームの計算能力を十分に活用することができない。
多くのコアCPUはWebサーバやハイエンドネットワークデバイスに広くデプロイされており、通常はコアとメモリをグループ化する複数のNUMAノードに編成される。
現在のフレームワークは、これらのプラットフォームで利用可能な推論スケーラビリティとインテリジェンスを制限する、NUMA間のメモリアクセスのかなりのオーバーヘッドを概ね見落としている。
この制限に対処するため、多コアCPU向けにゼロから設計された軽量LLM推論アーキテクチャであるArcLightを構築した。
ArcLightは、効率的なメモリ管理とスレッドスケジューリングを統合し、クロスノードメモリアクセスウォールを緩和するために、きめ細かい制御されたテンソル並列性を導入している。
実験の結果、ArcLightは主要なフレームワークのパフォーマンス上限を大幅に上回り、推論スループットは最大46%向上した。
さらに、ArcLightは任意のCPUデバイスとの互換性を維持している。
ArcLightはhttps://github.com/OpenBMB/ArcLightで公開されている。
関連論文リスト
- HyperOffload: Graph-Driven Hierarchical Memory Management for Large Language Models on SuperNode Architectures [20.525243835887558]
SuperNodeは、コンパイラ内のキャッシュ演算子を使用したデータ移動を表す。
私たちは、本番のディープラーニングフレームワークMindSporeにSuperNodeを実装しています。
SuperNodeは、エンドツーエンドのパフォーマンスを維持しながら、推論のピークデバイスメモリ使用量を最大26%削減することを示す。
論文 参考訳(メタデータ) (2026-01-31T14:29:13Z) - LightMem: Lightweight and Efficient Memory-Augmented Generation [72.21680105265824]
我々は、メモリシステムの性能と効率のバランスをとるLightMemという新しいメモリシステムを紹介した。
人間の記憶のアトキンソン・シフリンモデルにインスパイアされたLightMemは、メモリを3つの相補的なステージにまとめる。
GPTとQwenのバックボーンを用いたLongMemEvalの実験では、LightMemは高いベースライン(最大10.9%のゲイン)を上回り、トークンの使用量を最大117倍に削減している。
論文 参考訳(メタデータ) (2025-10-21T17:58:17Z) - SparAMX: Accelerating Compressed LLMs Token Generation on AMX-powered CPUs [5.760049762453579]
大規模な言語モデルをCPUで加速することにより、より広いAIアクセスを低コストで、消費電力で実現する。
オープンソースでカスタマイズされたスパースカーネルのセットを提供し、任意のPyTorchモデルを高速化します。
我々は、現在のシステム上での1.14倍のスピードアップを達成するために、非構造化空間の使用を初めて実演する。
論文 参考訳(メタデータ) (2025-02-18T02:26:34Z) - MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Efficient LLM Inference on CPUs [8.802223672775844]
大規模言語モデル(LLM)は、幅広いタスクにおいて、顕著なパフォーマンスと大きなポテンシャルを示してきた。
これらのモデルのデプロイは、天文学的なモデルパラメータの量のために困難でした。
LLMのデプロイをより効率的にするための効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-01T13:08:50Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。