論文の概要: SnapStream: Efficient Long Sequence Decoding on Dataflow Accelerators
- arxiv url: http://arxiv.org/abs/2511.03092v1
- Date: Wed, 05 Nov 2025 00:38:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.279876
- Title: SnapStream: Efficient Long Sequence Decoding on Dataflow Accelerators
- Title(参考訳): SnapStream: Dataflow Accelerator上での効率的なロングシーケンスデコーディング
- Authors: Jonathan Li, Nasim Farahini, Evgenii Iuliugin, Magnus Vesterlund, Christian Haggstrom, Guangtao Wang, Shubhangi Upasani, Ayush Sachdeva, Rui Li, Faline Fu, Chen Wu, Ayesha Siddiqua, John Long, Tuowen Zhao, Matheen Musaddiq, Hakan Zeffer, Yun Du, Mingran Wang, Qinghua Li, Bo Li, Urmish Thakker, Raghu Prabhakar,
- Abstract要約: StreamingLLMとSnapKVは、モデル精度を維持しながらKVキャッシュサイズを制御する方法を示している。
我々は,大規模に展開可能なKVキャッシュ圧縮方式であるSnapStreamを開発した。
我々は,SambaNova SN40Lアクセラレータ上でのDeepSeek-671Bの16方向テンソル並列展開におけるSnapStreamの有効性を実証した。
- 参考スコア(独自算出の注目度): 10.321967057613794
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The proliferation of 100B+ parameter Large Language Models (LLMs) with 100k+ context length support have resulted in increasing demands for on-chip memory to support large KV caches. Techniques such as StreamingLLM and SnapKV demonstrate how to control KV cache size while maintaining model accuracy. Yet, these techniques are not commonly used within industrial deployments using frameworks like vLLM or SGLang. The reason is twofold: on one hand, the static graphs and continuous batching methodology employed by these frameworks make it difficult to admit modifications to the standard multi-head attention algorithm, while on the other hand, the accuracy implications of such techniques on modern instruction-following and reasoning models are not well understood, obfuscating the need for implementing these techniques. In this paper, we explore these accuracy implications on Llama-3.1-8B-Instruct and DeepSeek-R1, and develop SnapStream, a KV cache compression method that can be deployed at scale. We demonstrate the efficacy of SnapStream in a 16-way tensor-parallel deployment of DeepSeek-671B on SambaNova SN40L accelerators running at 128k context length and up to 1832 tokens per second in a real production setting. SnapStream enables $4\times$ improved on-chip memory usage and introduces minimal accuracy degradation on LongBench-v2, AIME24 and LiveCodeBench. To the best of our knowledge, this is the first implementation of sparse KV attention techniques deployed in a production inference system with static graphs and continuous batching.
- Abstract(参考訳): 100k以上のコンテキスト長をサポートする100B以上のパラメータ LLM(Large Language Models)の普及により、大規模なKVキャッシュをサポートするためのオンチップメモリの必要性が高まっている。
StreamingLLMやSnapKVといったテクニックは、モデル精度を維持しながらKVキャッシュサイズを制御する方法を示している。
しかしながら、これらのテクニックは、vLLMやSGLangといったフレームワークを使用して、産業展開で一般的に使用されるものではない。
理由は2つある: これらのフレームワークが採用している静的グラフと連続バッチ手法は、標準的なマルチヘッドアテンションアルゴリズムの変更を認めるのを難しくする一方、現代の命令追従モデルや推論モデルに対するそのような手法の精度はよく理解されておらず、これらの手法の実装の必要性を曖昧にしている。
本稿では,Llama-3.1-8B-InstructとDeepSeek-R1の精度について検討し,大規模に展開可能なKVキャッシュ圧縮手法であるSnapStreamを開発した。
我々は,SambaNova SN40Lアクセラレータ上で128kのコンテクスト長と1秒あたり最大1832トークンを実稼働環境で動作させる,DeepSeek-671Bの16方向テンソル並列展開におけるSnapStreamの有効性を実証した。
SnapStreamは、オンチップメモリ使用量を改善する$4\timesを可能にし、LongBench-v2、AIME24、LiveCodeBenchに最小限の精度劣化をもたらす。
我々の知る限りでは、静的グラフと連続バッチ処理を備えた実運用推論システムに展開されるスパースKVアテンション技術の最初の実装である。
関連論文リスト
- OjaKV: Context-Aware Online Low-Rank KV Cache Compression with Oja's Rule [54.37983890753086]
我々は,戦略的ハイブリッドストレージポリシとオンラインサブスペース適応を統合したフレームワークであるOjaKVを紹介する。
OjaKVは、重要かつ最新のトークンをフルランクで保存し、注意のために高忠実なアンカーを維持している。
オンライン主成分分析のためのOjaのアルゴリズムを用いて、プロジェクションベースを漸進的に適応させることにより、低ランク圧縮を適用する。
論文 参考訳(メタデータ) (2025-09-25T21:42:27Z) - CommVQ: Commutative Vector Quantization for KV Cache Compression [50.37946553931796]
本稿では,長期LLM推論におけるメモリ使用量を大幅に削減するために,CommVQ(CommVQ)を提案する。
まず、KVキャッシュを圧縮するための軽量エンコーダとコードブックを用いた加算量子化を導入する。
提案手法は,RoPE-commutative codebook を用いた加算量子化と低オーバーヘッド化により高い精度を実現する。
論文 参考訳(メタデータ) (2025-06-23T17:50:11Z) - TailorKV: A Hybrid Framework for Long-Context Inference via Tailored KV Cache Optimization [21.229296254354878]
生成型大規模言語モデル(LLM)におけるキーバリューキャッシュは、かなりのメモリオーバーヘッドをもたらす。
既存の作業は、KVキャッシュをオフロードまたは圧縮することで、この負担を軽減する。
本稿では,量子化とオフロードをシームレスに統合するハイブリッド圧縮手法であるTailorKVを提案する。
論文 参考訳(メタデータ) (2025-05-26T07:00:04Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。
これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。
そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文 参考訳(メタデータ) (2025-02-05T20:43:48Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - SnapKV: LLM Knows What You are Looking for Before Generation [22.138577426977907]
SnapKVは、キーバリューキャッシュサイズを効率的に最小化する、微調整不要のアプローチである。
現実世界のアプリケーションで同等のパフォーマンスを提供する。
さらなる研究は、SnapKVの実用的な応用の可能性を示している。
論文 参考訳(メタデータ) (2024-04-22T17:42:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。