論文の概要: Spike-Aware C++ INT8 Inference for Sparse Spiking Language Models on Commodity CPUs
- arxiv url: http://arxiv.org/abs/2606.03026v1
- Date: Tue, 02 Jun 2026 02:03:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.686651
- Title: Spike-Aware C++ INT8 Inference for Sparse Spiking Language Models on Commodity CPUs
- Title(参考訳): 商品CPU上のスパーススパイク言語モデルに対するスパイク対応C++ INT8推論
- Authors: Ting Liu,
- Abstract要約: スパイク言語モデルは、高密度のTransformerランタイムが直接利用しないアクティベーション空間を公開します。
スパースバイナリスパイク状態を実行プリミティブとして扱うC++ CPU推論ランタイムを実装した。
スパイク対応の実行は、スパース言語モデルのCPUスループットとメモリ動作を改善することができる。
- 参考スコア(独自算出の注目度): 8.419155861590548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spiking language models expose activation sparsity that dense Transformer runtimes do not directly exploit. This paper studies that property from a systems perspective. Building on the SymbolicLight V1 spike-gated language model family, we implement a C++ CPU inference runtime that treats sparse binary spike states as an execution primitive rather than only applying post-hoc weight compression. The runtime combines a manifest-driven weight loader, mixed row/column memory layout, AVX2/FMA kernels, per-channel symmetric INT8 quantization, and integer-domain accumulation for spike-conditioned sparse paths. On an AMD Ryzen 7 5800X, an early scalar FP32 baseline decodes at 9.5 tokens/s. Mixed-layout AVX2 FP32 raises this to 14.7 tokens/s, and AVX2 INT8 reaches 19.9 tokens/s on the same step-30k export while reducing the weight footprint from 3.49 GB to 1.06 GB. For the available 186k-step 874M-parameter INT8 export, the C++ runtime decodes at 22.63 tokens/s in a single-thread CPU benchmark, compared with 16.31 tokens/s for TinyLlama-1.1B Q8_0, 11.26 tokens/s for Falcon3-1B Q8_0, and 9.70 tokens/s for Qwen2.5-1.5B Q8_0 under llama.cpp. Thread scaling reaches 47.90 tokens/s at four CPU threads, and 512-token prefill improves from 29.86 to 94.68 tokens/s from one to eight threads. The throughput result comes with a quality cost: the SNN reports WikiText-2 perplexity 24.80, worse than the dense baselines in the same benchmark. We frame the result as an inference-systems study for sparse language runtimes, with longer-term motivation in embodied and edge agents that may benefit from local, low-core inference near sensors and actuators. Spike-aware execution can improve CPU throughput and memory behavior for sparse spiking language models, while model quality, controlled dense training baselines, embodied-task evaluation, and measured CPU energy remain open problems.
- Abstract(参考訳): スパイク言語モデルは、高密度のTransformerランタイムが直接利用しないアクティベーション空間を公開します。
本稿では,その特性をシステムの観点から考察する。
シンボリックライトV1スパイクゲート言語モデルファミリをベースとして,スパースバイナリスパイク状態をポストホック重み圧縮のみを適用するのではなく,実行プリミティブとして扱うC++ CPU推論ランタイムを実装した。
ランタイムは、マニフェスト駆動の重みローダ、混合行/カラムメモリレイアウト、AVX2/FMAカーネル、チャネルごとの対称INT8量子化、スパイク条件のスパースパスの整数領域蓄積を組み合わせた。
AMD Ryzen 7 5800Xでは、初期のスカラーFP32が9.5トークン/秒でデコードされる。
AVX2 FP32は14.7トークン/sに増加し、AVX2 INT8は同じステップ30kエクスポートで19.9トークン/sに到達し、重量を3.49GBから1.06GBに削減した。
利用可能な186kステップの874MパラメータINT8のエクスポートでは、C++ランタイムはシングルスレッドCPUベンチマークで22.63トークン/sでデコードされ、TinyLlama-1.1B Q8_0の16.31トークン/s、Falcon3-1B Q8_0の11.26トークン/s、llama.cppの下のQwen2.5-1.5B Q8_0の9.70トークン/sである。
スレッドスケーリングは4つのCPUスレッドで47.90トークン/秒に達し、512トークンのプリフィルは29.86から94.68トークン/秒が1から8スレッドに改善された。
SNN は WikiText-2 perplexity 24.80 を報告している。
この結果は,センサやアクチュエータ近傍の局所的,低コアな推論の恩恵を受ける可能性のある,エンボディエージェントとエッジエージェントの長期的モチベーションを備えた,スパース言語ランタイムの推論システムとして評価された。
スパイクを意識した実行は、スパーススパイク言語モデルのCPUスループットとメモリ動作を改善する一方で、モデル品質、高密度トレーニングベースラインの制御、具体的タスク評価、測定されたCPUエネルギーは未解決の問題のままである。
関連論文リスト
- Litespark Inference on Consumer CPUs: Custom SIMD Kernels for Ternary Neural Networks [0.00815557531820863]
Litespark-InferenceはHugging-Faceと直接統合され、9.2倍高速、52倍高速、14倍メモリ削減を実現している。
実装であるLitespark-Inferenceは、pipインストール可能で、Hugging-Faceと直接統合され、9.2倍高速なタイム・ツー・ファースト・トークン、52倍高いスループット、14倍のメモリ削減を実現しています。
論文 参考訳(メタデータ) (2026-05-07T16:07:39Z) - TIDE: Token-Informed Depth Execution for Per-Token Early Exit in LLM Inference [0.0]
TIDEは、定期的なチェックポイント層とルータで学習した小さなレイヤを推論時にアタッチするポストトレーニングシステムであり、トークン毎に隠れた状態が収束した最初期のレイヤを選択する。
DeepSeek R1 Distill 8BのNVIDIA A100では、TIDEは100%プリフィルの終了率(11層でトークンの5%、31層で残るもの)を達成し、プリフィルのレイテンシを7.2%削減し、シングルバッチスループットを6.6%向上させた。
論文 参考訳(メタデータ) (2026-03-22T18:58:07Z) - GPU-Accelerated INT8 Quantization for KV Cache Compression in Large Language Models [0.0]
キー値(KV)キャッシュは、大きな言語モデルにおける推論中に重要なメモリボトルネックを示す。
我々は、KVキャッシュ圧縮のためのINT8量子化を実装し、最小の精度で4$times$メモリ削減を実現した。
論文 参考訳(メタデータ) (2026-01-08T08:35:56Z) - dParallel: Learnable Parallel Decoding for dLLMs [77.24184219948337]
拡散大言語モデル(dLLM)は並列トークン予測と低推論遅延を提供する。
既存のオープンソースモデルは、パフォーマンスを確保するためにトークン長のデコードステップをほとんど必要としています。
高速サンプリングのためにdLLMs固有の並列性を解き放つシンプルで効果的な方法であるdParallelを導入する。
論文 参考訳(メタデータ) (2025-09-30T16:32:52Z) - 70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float [52.079202872069835]
大規模言語モデル(LLM)や拡散モデル(DM)といった大規模AIモデルは急速に成長している。
圧縮フレームワークであるDynamic-Length Float (DFloat11) を導入し, LLM と DM サイズを30%削減した。
論文 参考訳(メタデータ) (2025-04-15T22:38:38Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale [80.86029795281922]
トランスにおけるフィードフォワードおよびアテンションプロジェクション層に対するInt8行列乗算法を開発した。
175Bパラメータ16/32ビットのチェックポイントをロードし、Int8に変換し、直ちに使用することができる。
論文 参考訳(メタデータ) (2022-08-15T17:08:50Z) - Efficient Execution of Quantized Deep Learning Models: A Compiler
Approach [6.616902691349208]
多くのアプリケーションがディープラーニングモデルを使用して予測関数を実装している。
TFLite、MXNet、PyTorchといったディープラーニングフレームワークは、開発者がわずかの精度でモデルを定量化できる。
様々なハードウェアプラットフォーム上で量子化されたモデルを実行するのに適していない。
論文 参考訳(メタデータ) (2020-06-18T01:38:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。