論文の概要: ZipServ: Fast and Memory-Efficient LLM Inference with Hardware-Aware Lossless Compression
- arxiv url: http://arxiv.org/abs/2603.17435v1
- Date: Wed, 18 Mar 2026 07:21:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.564318
- Title: ZipServ: Fast and Memory-Efficient LLM Inference with Hardware-Aware Lossless Compression
- Title(参考訳): ZipServ:ハードウェア対応ロスレス圧縮による高速かつメモリ効率のLLM推論
- Authors: Ruibo Fan, Xiangrui Yu, Xinglin Pan, Zeyu Li, Weile Luo, Qiang Wang, Wei Wang, Xiaowen Chu,
- Abstract要約: ロスレスモデル圧縮は、ビットエクササイズ大言語モデル(LLM)サービスにおけるメモリと帯域幅のボトルネックを軽減するために、非常に有望である。
既存のアプローチは、GPUアーキテクチャと基本的な設計ミスマッチのため、かなり推論が遅くなることが多い。
我々は、効率的なLLM推論のために共同設計されたロスレス圧縮フレームワークZipServを提案する。
- 参考スコア(独自算出の注目度): 19.538318240352424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lossless model compression holds tremendous promise for alleviating the memory and bandwidth bottlenecks in bit-exact Large Language Model (LLM) serving. However, existing approaches often result in substantial inference slowdowns due to fundamental design mismatches with GPU architectures: at the kernel level, variable-length bitstreams produced by traditional entropy codecs break SIMT parallelism; at the system level, decoupled pipelines lead to redundant memory traffic. We present ZipServ, a lossless compression framework co-designed for efficient LLM inference. ZipServ introduces Tensor-Core-Aware Triple Bitmap Encoding (TCA-TBE), a novel fixed-length format that enables constant-time, parallel decoding, together with a fused decompression-GEMM (ZipGEMM) kernel that decompresses weights on-the-fly directly into Tensor Core registers. This "load-compressed, compute-decompressed" design eliminates intermediate buffers and maximizes compute intensity. Experiments show that ZipServ reduces the model size by up to 30%, achieves up to 2.21x kernel-level speedup over NVIDIA's cuBLAS, and expedites end-to-end inference by an average of 1.22x over vLLM. ZipServ is the first lossless compression system that provides both storage savings and substantial acceleration for LLM inference on GPUs.
- Abstract(参考訳): ロスレスモデル圧縮は、ビットエクササイズ大言語モデル(LLM)サービスにおけるメモリと帯域幅のボトルネックを軽減するために、非常に有望である。
カーネルレベルでは、従来のエントロピーコーデックによって生成される可変長ビットストリームがSIMT並列性を破り、システムレベルでは分離されたパイプラインが冗長なメモリトラフィックにつながる。
我々は、効率的なLLM推論のために共同設計されたロスレス圧縮フレームワークZipServを提案する。
ZipServはTensor-Core-Aware Triple Bitmap Encoding (TCA-TBE)を導入した。これは、テンソルコアレジスタに直接重みを圧縮する、固定時間並列デコードを可能にする新しい固定長フォーマットである。
この "load-compressed, compute-decompressed" 設計は中間バッファを排除し、計算強度を最大化する。
実験の結果、ZipServはモデルサイズを最大30%削減し、NVIDIAのcuBLASよりも最大2.21倍のカーネルレベルのスピードアップを実現し、エンドツーエンドの推論を平均1.22倍のvLLMで高速化することがわかった。
ZipServは、GPU上のLLM推論のためのストレージの節約と実質的なアクセラレーションの両方を提供する最初のロスレス圧縮システムである。
関連論文リスト
- DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity [50.52392445266824]
そこで本稿では,KV表現における長距離間類似性と高共有遅延成分を動機とする残差ベースのKVキャッシュ圧縮フレームワークを提案する。
DeltaKVはトークンを捨てる代わりに、検索した履歴参照に対するセマンティックな残基をエンコードし、保存を著しく削減する。
実験によると、DeltaKVは、LongBench、SCBench、AIMEでほぼロスレスの精度を維持しながら、KVキャッシュメモリを元の29%に削減している。
論文 参考訳(メタデータ) (2026-02-08T15:14:36Z) - Spava: Accelerating Long-Video Understanding via Sequence-Parallelism-aware Approximate Attention [63.69228529380251]
Spavaはシーケンス並列フレームワークで、ロングビデオ推論に最適化されている。
Spavaは、FlashAttn、ZigZagRing、APBで12.72x、1.70x、1.18xのスピードアップを提供する。
論文 参考訳(メタデータ) (2026-01-29T09:23:13Z) - CXL-SpecKV: A Disaggregated FPGA Speculative KV-Cache for Datacenter LLM Serving [5.216774377033164]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
LLMはキー値(KV)キャッシュの大規模なメモリ要求のため、課題に直面している。
我々は,新しい分散KV-cacheアーキテクチャである textbfCXL-SpecKV を提案する。
論文 参考訳(メタデータ) (2025-12-11T15:40:36Z) - SWAN: Sparse Winnowed Attention for Reduced Inference Memory via Decompression-Free KV-Cache Compression [7.603859408568262]
大きな言語モデル(LLM)は、キーバリュー(KV)キャッシュの巨大なメモリフットプリントのため、自動回帰推論において重大なボトルネックに直面します。
SWANは、このオーバーヘッドをなくす、新しい、微調整不要なフレームワークである。
提案手法はオフライン行列を用いてKV-cacheを回転させプルークする。
論文 参考訳(メタデータ) (2025-11-24T09:41:24Z) - FlashSVD: Memory-Efficient Inference with Streaming for Low-Rank Models [15.244129138320782]
FlashSVDは、SVD圧縮された大規模言語モデルのためのエンドツーエンドのランクアウェアストリーミング推論フレームワークである。
ピークアクティベーションメモリを最大70.2%削減し、中間のトランジェントメモリを75%削減する。
アップストリームエンコード圧縮法では精度の低下は生じず、低ランクLLMのメモリ制約による展開への実践的な経路を提供する。
論文 参考訳(メタデータ) (2025-08-02T22:06:46Z) - DistZO2: High-Throughput and Memory-Efficient Zeroth-Order Fine-tuning LLMs with Distributed Parallel Computing [4.589472292598182]
細調整された大規模言語モデル(LLM)は、その厳密なスケールのため、リソース集約型のままである。
LLMの分散ゼロオーダー微調整のためのメモリ効率のよいフレームワークであるDistZO2を提案する。
論文 参考訳(メタデータ) (2025-07-03T22:53:34Z) - Huff-LLM: End-to-End Lossless Compression for Efficient LLM Inference [19.59857352852377]
大規模言語モデル(LLM)は、急速にサイズを拡大し続けている。
これにより、小さなエッジデバイス上でのLLMの動作の困難さが増した。
本稿では,LLM重みを圧縮形式で格納するHuff-LLMを提案する。
論文 参考訳(メタデータ) (2025-02-02T21:23:42Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - ZipLM: Inference-Aware Structured Pruning of Language Models [56.52030193434863]
ZipLMと呼ばれる大規模言語モデル(LLM)に対する新しい構造化圧縮手法を提案する。
ZipLMは、所望のランタイムスピードアップのセットをマッチングしながら、最先端の精度-vs-スピードアップを実現する。
ZipLMはすべての設定で最先端の圧縮モデルを生成する。
論文 参考訳(メタデータ) (2023-02-07T18:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。