論文の概要: T-SAR: A Full-Stack Co-design for CPU-Only Ternary LLM Inference via In-Place SIMD ALU Reorganization
- arxiv url: http://arxiv.org/abs/2511.13676v1
- Date: Mon, 17 Nov 2025 18:32:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 18:52:09.673498
- Title: T-SAR: A Full-Stack Co-design for CPU-Only Ternary LLM Inference via In-Place SIMD ALU Reorganization
- Title(参考訳): T-SAR: In-Place SIMD ALU再構成による CPU-Only Ternary LLM推論のためのフルスタック共設計
- Authors: Hyunwoo Oh, KyungIn Nam, Rajat Bhattacharjya, Hanning Chen, Tamoghno Das, Sanggeon Yun, Suyeon Jang, Andrew Ding, Nikil Dutt, Mohsen Imani,
- Abstract要約: 本稿では,CPU上でのスケーラブルな3次LLM推論を実現するための最初のフレームワークであるT-SARを提案する。
T-SARはメモリボトルネックを排除し、データレベルの並列性を最大化し、GEMMレイテンシとGEMVスループットの5.6-24.5xと1.1-86.2xの改善を提供する。
T-SARはNVIDIA Jetson AGX Orinの2.5-4.9倍のエネルギー効率を実現し、エッジプラットフォーム上で効率的なLCM推論のための実践的なアプローチを確立した。
- 参考スコア(独自算出の注目度): 7.665240126732136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in LLMs have outpaced the computational and memory capacities of edge platforms that primarily employ CPUs, thereby challenging efficient and scalable deployment. While ternary quantization enables significant resource savings, existing CPU solutions rely heavily on memory-based lookup tables (LUTs) which limit scalability, and FPGA or GPU accelerators remain impractical for edge use. This paper presents T-SAR, the first framework to achieve scalable ternary LLM inference on CPUs by repurposing the SIMD register file for dynamic, in-register LUT generation with minimal hardware modifications. T-SAR eliminates memory bottlenecks and maximizes data-level parallelism, delivering 5.6-24.5x and 1.1-86.2x improvements in GEMM latency and GEMV throughput, respectively, with only 3.2% power and 1.4% area overheads in SIMD units. T-SAR achieves up to 2.5-4.9x the energy efficiency of an NVIDIA Jetson AGX Orin, establishing a practical approach for efficient LLM inference on edge platforms.
- Abstract(参考訳): LLMの最近の進歩は、主にCPUを使用するエッジプラットフォームの計算能力とメモリ容量を上回り、効率的でスケーラブルなデプロイメントを困難にしている。
第三次量子化は大きなリソース節約を可能にするが、既存のCPUソリューションはスケーラビリティを制限するメモリベースのルックアップテーブル(LUT)に大きく依存している。
本稿では,SIMDレジスタファイルを動的に登録したLUT生成用ファイルを最小限のハードウェア修正で再資源化することにより,CPU上でのスケーラブルな3次LLM推論を実現する最初のフレームワークであるT-SARを提案する。
T-SARはメモリボトルネックを排除し、データレベルの並列性を最大化し、GEMMレイテンシとGEMVスループットをそれぞれ5.6-24.5xと1.1-86.2x改善し、SIMDユニットの電力はわずか3.2%、面積オーバーヘッドは1.4%である。
T-SARはNVIDIA Jetson AGX Orinの2.5-4.9倍のエネルギー効率を実現し、エッジプラットフォーム上で効率的なLCM推論のための実践的なアプローチを確立した。
関連論文リスト
- Accelerating Sparse Ternary GEMM for Quantized ML on Apple Silicon [0.0]
本稿では,AppleのMシリーズプロセッサ向けに最適化されたSparse Ternary GEMMカーネルを提案する。
本稿では、メモリの局所性を改善するために、新しいブロッキングおよびインターリーブされたスパースデータフォーマットを含む、アーキテクチャを意識した一連の最適化を提案する。
我々のベクトル化実装は、25%の間隔を持つ大きな行列に対して最大5.59倍の性能向上をもたらし、様々な間隔レベルにわたって安定している。
論文 参考訳(メタデータ) (2025-10-08T12:42:07Z) - TeLLMe v2: An Efficient End-to-End Ternary LLM Prefill and Decode Accelerator with Table-Lookup Matmul on Edge FPGAs [9.646882213709814]
TeLLMeは、低消費電力のエッジFPGAのためのテーブルルックアップベースの3次LLMアクセラレータである。
1.58ビットの重みと8ビットのアクティベーションを使用するプリフィルと自動回帰デコードの両方をサポートする。
5Wの電力予算の下では、TeLLMeは最大25tokens/sデコードスループットを提供する。
論文 参考訳(メタデータ) (2025-10-03T05:37:51Z) - APT-LLM: Exploiting Arbitrary-Precision Tensor Core Computing for LLM Acceleration [5.075697428779204]
大規模言語モデル(LLM)は、AIアプリケーションに革命をもたらしたが、その膨大な計算要求は、デプロイメントとリアルタイムのパフォーマンスを著しく制限している。
これは主にGPU Coreの限定的なサポート、非効率なメモリ管理、非フレキシブルなカーネル最適化が原因である。
本稿では,任意の精度のLLM,すなわちAPT-LLMに対する包括的加速法を提案する。
論文 参考訳(メタデータ) (2025-08-26T14:48:29Z) - MEADOW: Memory-efficient Dataflow and Data Packing for Low Power Edge LLMs [5.88896081401217]
大規模言語モデルのオフチップメモリアクセスを大幅に削減するフレームワークであるMEADOWを紹介する。
MEADOW は GEMM ベースの LLM 実装と比較して 1.5x と 2.5x のデコードとプリフィル遅延を示す。
MEADOWは、従来のLLM最適化作業と比較して、エンドツーエンドのレイテンシの改善を40%以上達成している。
論文 参考訳(メタデータ) (2025-02-14T23:50:37Z) - Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。
バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文 参考訳(メタデータ) (2024-07-15T17:55:42Z) - EDGE-LLM: Enabling Efficient Large Language Model Adaptation on Edge Devices via Layerwise Unified Compression and Adaptive Layer Tuning and Voting [12.006890185810322]
本稿では,エッジデバイス上での安価かつ効率的なLLM適応を実現するために,Edge-LLMと呼ばれる計算およびメモリ効率の高いLLMチューニングフレームワークを提案する。
具体的には,レイヤワイド統一圧縮(LUC)技術を用いて,レイヤワイドプルーニング空間と量子化ビット幅ポリシを生成して計算オーバーヘッドを削減する,(2)バックプロパゲーション深さを減らしてメモリオーバーヘッドを削減する適応層チューニングと投票方式,(3)LUCが導入した不規則な計算パターンと適応層チューニングを補完するハードウェアスケジューリング戦略,の3つのコアコンポーネントを特徴とする。
論文 参考訳(メタデータ) (2024-06-22T06:51:47Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。