論文の概要: Accelerating Sparse Ternary GEMM for Quantized LLM inference on Apple Silicon
- arxiv url: http://arxiv.org/abs/2510.06957v1
- Date: Wed, 08 Oct 2025 12:42:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.492492
- Title: Accelerating Sparse Ternary GEMM for Quantized LLM inference on Apple Silicon
- Title(参考訳): Apple Silicon上での量子LLM推論のためのスパース第三次GEMMの高速化
- Authors: Baraq Lipshitz, Alessio Melone, Charalampos Maraziaris, Muhammed Bilal,
- Abstract要約: 本稿では,AppleのMシリーズプロセッサ向けに最適化されたSparse Ternary GEMMカーネルを提案する。
本稿では、メモリの局所性を改善するために、新しいブロッキングおよびインターリーブされたスパースデータフォーマットを含む、アーキテクチャを意識した一連の最適化を提案する。
我々のベクトル化実装は、25%の間隔を持つ大きな行列に対して最大5.59倍の性能向上をもたらし、様々な間隔レベルにわたって安定している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse Ternary General Matrix-Matrix Multiplication (GEMM) remains under-optimized in existing libraries for Apple Silicon CPUs. We present a Sparse Ternary GEMM kernel optimized specifically for Apple's M-series processors. We propose a set of architecture-aware optimizations, including a novel blocked and interleaved sparse data format to improve memory locality, strategies to increase Instruction-Level Parallelism (ILP), and NEON-based Single Instruction Multiple Data (SIMD) vectorization to exploit data-level parallelism. Our scalar implementation achieves up to a 5.98x performance increase over a traditional Ternary Compressed Sparse Column (TCSC) baseline for large matrices with 50% ternary nonzero values (sparsity), reaching up to a 50.2% of the processor's theoretical peak performance, and remains stable across varying sparsity levels. Our vectorized implementation delivers up to a 5.59x performance increase for large matrices with 25% sparsity, and remains stable across varying sparsity levels.
- Abstract(参考訳): Sparse Ternary General Matrix-Matrix Multiplication (GEMM)は、Apple Silicon CPUの既存のライブラリにおいて、まだ過度に最適化されていない。
本稿では,AppleのMシリーズプロセッサ向けに最適化されたSparse Ternary GEMMカーネルを提案する。
本稿では,メモリローカリティ向上のための新しいブロッキングおよびインターリーブされたスパースデータフォーマット,命令レベル並列性(ILP)向上戦略,データレベルの並列性を活用するためのNEONベースの単一命令多重データ(SIMD)ベクトル化など,アーキテクチャを意識した一連の最適化を提案する。
我々のスカラー実装は、従来の3次圧縮スパースカラム(TCSC)ベースラインに対して最大5.98倍の性能向上を実現し、50%の3次非ゼロ値(スパース)を持つ大行列に対して、プロセッサの理論的ピーク性能の50.2%まで到達し、様々なパリティレベルにわたって安定している。
我々のベクトル化実装は、25%の間隔を持つ大きな行列に対して最大5.59倍の性能向上をもたらし、様々な間隔レベルにわたって安定している。
関連論文リスト
- Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation [129.45368843861917]
我々は、レイヤ間の効率的なメモリ共有のためのシンプルで効果的なメカニズムであるGated Memory Unit(GMU)を紹介した。
これは、GMUを組み込んでSambaベースのセルフデコーダからメモリ読み出し状態を共有するデコーダ・ハイブリッド・デコーダアーキテクチャである。
論文 参考訳(メタデータ) (2025-07-09T07:27:00Z) - Highly Optimized Kernels and Fine-Grained Codebooks for LLM Inference on Arm CPUs [0.8217552831952]
大きな言語モデル(LLM)は、言語理解と生成に関する考え方を変えました。
LLM量子化によく使われるグループ量子化形式は、計算上のオーバーヘッドとリソース集約型量子化プロセスを持つ。
本稿では,LLMの超低精度量子化のためのグループワイド非一様符号ブックに基づく量子化手法を提案する。
論文 参考訳(メタデータ) (2024-12-23T03:44:29Z) - Efficient Arbitrary Precision Acceleration for Large Language Models on GPU Tensor Cores [3.6385567224218556]
大規模言語モデル(LLM)は広く応用されているが、効率的な推論では課題に直面している。
本稿では、並列計算を容易にし、対称量子化をサポートする新しいバイポーラ-INTデータフォーマットを提案する。
ビットレベルで分解・復元する任意の精度行列乗算方式を実装し,フレキシブルな精度を実現する。
論文 参考訳(メタデータ) (2024-09-26T14:17:58Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - Distributed Out-of-Memory NMF on CPU/GPU Architectures [1.0051474951635875]
本稿では,HPCシステムに対する非負行列分解(NMF)アルゴリズムのメモリ外実装を提案する。
ベンチマークの結果、CPUベースのNMFkよりもGPUを使用した新しい実装により、32Xから76倍のスピードアップが大幅に改善された。
論文 参考訳(メタデータ) (2022-02-19T03:49:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。