論文の概要: Efficient In-Memory Acceleration of Sparse Block Diagonal LLMs
- arxiv url: http://arxiv.org/abs/2510.11192v1
- Date: Mon, 13 Oct 2025 09:25:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.29493
- Title: Efficient In-Memory Acceleration of Sparse Block Diagonal LLMs
- Title(参考訳): スパースブロックダイアゴナルLCMの高効率インメモリ高速化
- Authors: João Paulo Cardoso de Lima, Marc Dietrich, Jeronimo Castrillon, Asif Ali Khan,
- Abstract要約: 構造化されたスパーシリティは、リソース制約のあるシステムに大規模言語モデル(LLM)をデプロイすることを可能にする。
本稿では,CIMアクセラレータ上での疎LLM推論を高速化するための新しいマッピングとスケジューリング手法を提案する。
提案手法はCIM利用率を50%以上向上させ,メモリフットプリントと浮動小数点演算回数の両面で4倍以上の削減を実現した。
- 参考スコア(独自算出の注目度): 1.5099440840283813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Structured sparsity enables deploying large language models (LLMs) on resource-constrained systems. Approaches like dense-to-sparse fine-tuning are particularly compelling, achieving remarkable structured sparsity by reducing the model size by over 6.7x, while still maintaining acceptable accuracy. Despite this reduction, LLM inference, especially the decode stage being inherently memory-bound, is extremely expensive on conventional Von-Neumann architectures. Compute-in-memory (CIM) architectures mitigate this by performing computations directly in memory, and when paired with sparse LLMs, enable storing and computing the entire model in memory, eliminating the data movement on the off-chip bus and improving efficiency. Nonetheless, naively mapping sparse matrices onto CIM arrays leads to poor array utilization and diminished computational efficiency. In this paper, we present an automated framework with novel mapping and scheduling strategies to accelerate sparse LLM inference on CIM accelerators. By exploiting block-diagonal sparsity, our approach improves CIM array utilization by over 50%, achieving more than 4x reduction in both memory footprint and the number of required floating-point operations.
- Abstract(参考訳): 構造化されたスパーシリティは、リソース制約のあるシステムに大規模言語モデル(LLM)をデプロイすることを可能にする。
密度の細かい微調整のようなアプローチは特に魅力的であり、モデルのサイズを6.7倍に減らし、精度を保ちながら、顕著な構造的疎結合を実現している。
この減少にもかかわらず、LLM推論、特にデコードステージは本質的にメモリバウンドであり、従来のフォン・ノイマンアーキテクチャでは極めて高価である。
コンピュート・イン・メモリ(CIM)アーキテクチャは、直接メモリ上で計算を行い、スパースLLMと組み合わせることで、メモリ内のモデル全体の保存と計算を可能にし、オフチップバス上のデータ移動を排除し、効率を向上させることで、これを緩和する。
それでも、スパース行列をCIMアレイに鼻でマッピングすることで、配列利用の低さと計算効率の低下につながる。
本稿では,CIMアクセラレータ上でのスパースLSM推論を高速化する,新しいマッピングとスケジューリング戦略を備えた自動フレームワークを提案する。
ブロック対角性を利用してCIM配列の利用率を50%以上改善し,メモリフットプリントと浮動小数点演算数を4倍以上に削減した。
関連論文リスト
- Sparse Attention Remapping with Clustering for Efficient LLM Decoding on PIM [7.651654889371008]
トランスフォーマーベースのモデルは現代の機械学習の基礎であるが、その実行はメモリシステムに大きな圧力をかける。
プロセッシング・イン・メモリ(PIM)アーキテクチャは、メモリ近傍で高い内部帯域幅と計算並列性を提供する、有望なソリューションである。
現在のPIM設計は、主に、KVキャッシュスパーシリティ技術によって導入された動的で不規則なアクセスパターンに対処するために最適化されている。
論文 参考訳(メタデータ) (2025-05-09T04:17:05Z) - MEADOW: Memory-efficient Dataflow and Data Packing for Low Power Edge LLMs [5.88896081401217]
大規模言語モデルのオフチップメモリアクセスを大幅に削減するフレームワークであるMEADOWを紹介する。
MEADOW は GEMM ベースの LLM 実装と比較して 1.5x と 2.5x のデコードとプリフィル遅延を示す。
MEADOWは、従来のLLM最適化作業と比較して、エンドツーエンドのレイテンシの改善を40%以上達成している。
論文 参考訳(メタデータ) (2025-02-14T23:50:37Z) - SLiM: One-shot Quantization and Sparsity with Low-rank Approximation for LLM Weight Compression [7.6131620435684875]
SLIMは新しいワンショット圧縮フレームワークで、ハードウェアフレンドリーな量子化、スパーシティ、低ランク近似を統合する。
SLIMはモデル精度を最大5.66%(LLaMA-2-7B)まで改善し、4ビットの重み量子化で2:4の間隔で計算し、従来の手法より優れている。
論文 参考訳(メタデータ) (2024-10-12T18:36:07Z) - Efficient Arbitrary Precision Acceleration for Large Language Models on GPU Tensor Cores [3.6385567224218556]
大規模言語モデル(LLM)は広く応用されているが、効率的な推論では課題に直面している。
本稿では、並列計算を容易にし、対称量子化をサポートする新しいバイポーラ-INTデータフォーマットを提案する。
ビットレベルで分解・復元する任意の精度行列乗算方式を実装し,フレキシブルな精度を実現する。
論文 参考訳(メタデータ) (2024-09-26T14:17:58Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。
バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文 参考訳(メタデータ) (2024-07-15T17:55:42Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。