論文の概要: Sparse Attention Remapping with Clustering for Efficient LLM Decoding on PIM
- arxiv url: http://arxiv.org/abs/2505.05772v1
- Date: Fri, 09 May 2025 04:17:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.149214
- Title: Sparse Attention Remapping with Clustering for Efficient LLM Decoding on PIM
- Title(参考訳): PIM上での効率的なLCMデコーディングのためのクラスタリングによるスパースアテンションリマッピング
- Authors: Zehao Fan, Garrett Gagnon, Zhenyu Liu, Liu Liu,
- Abstract要約: トランスフォーマーベースのモデルは現代の機械学習の基礎であるが、その実行はメモリシステムに大きな圧力をかける。
プロセッシング・イン・メモリ(PIM)アーキテクチャは、メモリ近傍で高い内部帯域幅と計算並列性を提供する、有望なソリューションである。
現在のPIM設計は、主に、KVキャッシュスパーシリティ技術によって導入された動的で不規則なアクセスパターンに対処するために最適化されている。
- 参考スコア(独自算出の注目度): 7.651654889371008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based models are the foundation of modern machine learning, but their execution, particularly during autoregressive decoding in large language models (LLMs), places significant pressure on memory systems due to frequent memory accesses and growing key-value (KV) caches. This creates a bottleneck in memory bandwidth, especially as context lengths increase. Processing-in-memory (PIM) architectures are a promising solution, offering high internal bandwidth and compute parallelism near memory. However, current PIM designs are primarily optimized for dense attention and struggle with the dynamic, irregular access patterns introduced by modern KV cache sparsity techniques. Consequently, they suffer from workload imbalance, reducing throughput and resource utilization. In this work, we propose STARC, a novel sparsity-optimized data mapping scheme tailored specifically for efficient LLM decoding on PIM architectures. STARC clusters KV pairs by semantic similarity and maps them to contiguous memory regions aligned with PIM bank structures. During decoding, queries retrieve relevant tokens at cluster granularity by matching against precomputed centroids, enabling selective attention and parallel processing without frequent reclustering or data movement overhead. Experiments on the HBM-PIM system show that, compared to common token-wise sparsity methods, STARC reduces attention-layer latency by 19%--31% and energy consumption by 19%--27%. Under a KV cache budget of 1024, it achieves up to 54%--74% latency reduction and 45%--67% energy reduction compared to full KV cache retrieval. Meanwhile, STARC maintains model accuracy comparable to state-of-the-art sparse attention methods, demonstrating its effectiveness in enabling efficient and hardware-friendly long-context LLM inference on PIM architectures.
- Abstract(参考訳): トランスフォーマーベースのモデルは、現代の機械学習の基礎であるが、特に大規模言語モデル(LLM)における自己回帰復号(autoregressive decoding)において、メモリアクセスの頻繁な増加とキーバリュー(KV)キャッシュの増加により、メモリシステムに大きな圧力がかかる。
これにより、特にコンテキストの長さが増加するにつれて、メモリ帯域幅のボトルネックが生じる。
プロセッシング・イン・メモリ(PIM)アーキテクチャは、メモリ近傍で高い内部帯域幅と計算並列性を提供する、有望なソリューションである。
しかしながら、現在のPIM設計は、主に、KVキャッシュのスパーシリティ技術によって導入された動的で不規則なアクセスパターンに対処するために最適化されている。
その結果、ワークロードの不均衡、スループットの低下、リソース利用の低下に悩まされる。
本研究では,PIM アーキテクチャ上での効率的な LLM デコーディングに適した空間最適化型データマッピング方式STARC を提案する。
STARCクラスタKVはセマンティックな類似性によってペアとなり、それらをPIMバンク構造に整合した連続したメモリ領域にマッピングする。
デコード中、クエリは事前に計算されたセントロイドとマッチングすることで、クラスタの粒度で関連するトークンを検索し、頻繁に再クラスタ化やデータ移動のオーバーヘッドを発生させることなく、選択的な注意と並列処理を可能にする。
HBM-PIMシステムでの実験では、一般的なトークンワイド・スパシティ法と比較して、STARCは注意層遅延を19%~31%、エネルギー消費を19%~27%削減している。
KVキャッシュの予算は1024で、最大で54%から74%のレイテンシ削減と45%から67%のエネルギー削減を実現している。
一方、STARCは最先端のスパースアテンション手法に匹敵するモデルの精度を維持し、PIMアーキテクチャにおける効率的でハードウェアフレンドリーなLLM推論の実現の有効性を示した。
関連論文リスト
- ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification [29.163757099307553]
大規模視覚言語モデル(LVLM)の効率は、プリフィルフェーズにおける注意機構の計算ボトルネックによって制約される。
本稿では,重要なトークンの動的比割り当て戦略を通じて,LVLM向けに設計された効率的な推論フレームワークZipVLを提案する。
論文 参考訳(メタデータ) (2024-10-11T07:24:21Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Model Tells You Where to Merge: Adaptive KV Cache Merging for LLMs on Long-Context Tasks [21.815661269986425]
KVMergerと呼ばれる新しいKVキャッシュマージ手法を提案し、長文タスクに対して適応的なKVキャッシュ圧縮を実現する。
我々のアプローチは、キー状態が1つのシーケンス内のトークンレベルで高い類似性を示すという興味深い観察にインスパイアされている。
我々は,制約メモリ予算下での長時間コンテキストタスクに対するKVMergerの有効性を示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-07-11T12:50:42Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。