論文の概要: Litespark Inference on Consumer CPUs: Custom SIMD Kernels for Ternary Neural Networks
- arxiv url: http://arxiv.org/abs/2605.06485v1
- Date: Thu, 07 May 2026 16:07:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.978194
- Title: Litespark Inference on Consumer CPUs: Custom SIMD Kernels for Ternary Neural Networks
- Title(参考訳): コンシューマCPUにおけるLitespark推論:3次ニューラルネットワークのためのカスタムSIMDカーネル
- Authors: Nii Osae Osae Dade, Tony Morri, Moinul Hossain Rahat, Sayandip Pal,
- Abstract要約: Litespark-InferenceはHugging-Faceと直接統合され、9.2倍高速、52倍高速、14倍メモリ削減を実現している。
実装であるLitespark-Inferenceは、pipインストール可能で、Hugging-Faceと直接統合され、9.2倍高速なタイム・ツー・ファースト・トークン、52倍高いスループット、14倍のメモリ削減を実現しています。
- 参考スコア(独自算出の注目度): 0.00815557531820863
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have transformed artificial intelligence, but their computational requirements remain prohibitive for most users. Standard inference demands expensive datacenter GPUs or cloud API access, leaving over one billion personal computers underutilized for AI workloads. Ternary models offer a path forward: their weights are constrained to {-1, 0, +1}, theoretically eliminating the need for floating-point multiplication. However, existing frameworks fail to exploit this structure, treating ternary models as dense floating-point networks. We address this gap with custom SIMD kernels that replace matrix multiplication with simple addition and subtraction operations, targeting the integer dot product instructions available on modern CPUs. Our implementation, Litespark-Inference, is pip-installable and integrates directly with Hugging-Face, achieving 9.2x faster time-to-first-token, 52x higher throughput, and 14x memory reduction compared to standard PyTorch inference on Apple Silicon, with similar speedups on Intel and AMD processors.
- Abstract(参考訳): 大規模言語モデル (LLM) は人工知能に変化をもたらしたが、ほとんどのユーザーにとって計算要求は禁じられている。
標準推論では、高価なデータセンタGPUやクラウドAPIアクセスを必要とし、AIワークロードに使用されていない10億以上のパーソナルコンピュータを残している。
重みは {-1, 0, +1} に制約され、理論的には浮動小数点乗法の必要性を排除している。
しかし、既存のフレームワークはこの構造を活用できず、三次モデルは密度の高い浮動小数点ネットワークとして扱う。
このギャップを、行列乗算を単純な加算と減算演算に置き換えるカスタムSIMDカーネルで解決し、現代のCPUで利用可能な整数ドット製品命令をターゲットとした。
我々の実装であるLitespark-Inferenceは、ピンプインストール可能で、Hugging-Faceと直接統合されており、IntelやAMDプロセッサで同様のスピードアップを行うApple SiliconのPyTorch推論と比較して、9.2倍高速で、52倍高いスループット、14倍のメモリ削減を実現しています。
関連論文リスト
- FHECore: Rethinking GPU Microarchitecture for Fully Homomorphic Encryption [2.7777199166440827]
FHE(Fully Homomorphic Encryption)は、暗号化されたデータを直接計算できるが、膨大な計算とメモリオーバーヘッドを発生させる。
カスタムアクセラレーターはこれらのコストを軽減することができるが、市場投入までの長い時間とFHEアルゴリズムの急速な進化は、長期的な妥当性を脅かす。
本稿では,GPUのストリームマルチプロセッサに直接統合された特殊な機能ユニットであるFHECoreを提案する。
論文 参考訳(メタデータ) (2026-02-10T02:55:10Z) - Memory-Efficient Acceleration of Block Low-Rank Foundation Models on Resource Constrained GPUs [11.45717904490388]
トランスフォーマーベースの基盤モデルの最近の進歩は、多くのタスクのデフォルト選択となった。
その急速に成長するサイズは、単一のGPUに完全なモデルを適合させることがますます難しくなり、計算コストが禁じられる。
ブロック低ランク(BLR)圧縮技術は、重み行列のコンパクト表現を学習することでこの問題に対処する。
論文 参考訳(メタデータ) (2025-12-24T00:41:13Z) - SparAMX: Accelerating Compressed LLMs Token Generation on AMX-powered CPUs [5.760049762453579]
大規模な言語モデルをCPUで加速することにより、より広いAIアクセスを低コストで、消費電力で実現する。
オープンソースでカスタマイズされたスパースカーネルのセットを提供し、任意のPyTorchモデルを高速化します。
我々は、現在のシステム上での1.14倍のスピードアップを達成するために、非構造化空間の使用を初めて実演する。
論文 参考訳(メタデータ) (2025-02-18T02:26:34Z) - Scaling Tractable Probabilistic Circuits: A Systems Perspective [53.76194929291088]
PyJuiceは、いくつかの点で先行技術を改善するPCの一般的な実装設計である。
大規模PCのトレーニングでは、既存のシステムよりも1~2桁高速である。
PyJuiceは2~5倍のメモリを消費するので、より大きなモデルをトレーニングすることができます。
論文 参考訳(メタデータ) (2024-06-02T14:57:00Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Tricking AI chips into Simulating the Human Brain: A Detailed
Performance Analysis [0.5354801701968198]
脳シミュレーションでは、複数の最先端AIチップ(Graphcore IPU、GroqChip、劣悪なCoreを持つNvidia GPU、Google TPU)を評価した。
性能解析の結果,シミュレーション問題はGPUとTPUアーキテクチャに極めてよく対応していることがわかった。
GroqChipは、小さなネットワークにおいて両方のプラットフォームより優れているが、精度の低い浮動小数点演算を実装しているため、脳シミュレーションではまだ利用できない。
論文 参考訳(メタデータ) (2023-01-31T13:51:37Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - A Tensor Compiler for Unified Machine Learning Prediction Serving [8.362773007171118]
企業における機械学習(ML)の採用には、よりシンプルで効率的なソフトウェアインフラが必要である。
モデルのスコアリングは、モデルが一度訓練されるが、何度も使用されるため、インフラストラクチャの複雑さとコストに主要な貢献をする。
本稿では,HUMMINGBIRDを提案する。HUMMINGBIRDは,計算演算子と従来のMLモデルを小さなテンソル演算系にコンパイルする新しいモデルスコアリング手法である。
論文 参考訳(メタデータ) (2020-10-09T21:02:47Z) - Real-Time Execution of Large-scale Language Models on Mobile [49.32610509282623]
BERTの最良のモデル構造は,特定のデバイスに適合する計算サイズである。
我々のフレームワークは、モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすための特定モデルを保証することができる。
具体的には、当社のモデルはCPUでは5.2倍、GPUでは4.1倍、BERTベースでは0.5-2%の精度損失がある。
論文 参考訳(メタデータ) (2020-09-15T01:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。