論文の概要: Striking the Right Balance between Compute and Copy: Improving LLM Inferencing Under Speculative Decoding
- arxiv url: http://arxiv.org/abs/2511.12031v1
- Date: Sat, 15 Nov 2025 04:49:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.517284
- Title: Striking the Right Balance between Compute and Copy: Improving LLM Inferencing Under Speculative Decoding
- Title(参考訳): コンピュータとコピーの正しいバランス付け:投機的復号化下でのLCM推論の改善
- Authors: Arun Ramachandran, Ramaswamy Govindarajan, Murali Annavaram, Prakash Raghavendra, Hossein Entezari Zarch, Lei Gao, Chaoyi Jiang,
- Abstract要約: 本稿では,Balancing Memory and Compute (BMC) と呼ばれる新しいKVキャッシュ割り当て機構を提案する。
BMCは、rイテレーション毎に、r冗長な行を持つKVテンソルを割り当て、それらのイテレーションのオーバーヘッドをコピーすることなく、インプレース更新を可能にする。
BMCは、最先端の推論サーバvLLMとDeepSpeedで最大1.36倍と2.29倍のスループットを達成している。
- 参考スコア(独自算出の注目度): 12.302511322703852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the skyrocketing costs of GPUs and their virtual instances in the cloud, there is a significant desire to use CPUs for large language model (LLM) inference. KV cache update, often implemented as allocation, copying, and in-place strided update for each generated token, incurs significant overhead. As the sequence length increases, the allocation and copy overheads dominate the performance. Alternate approaches may allocate large KV tensors upfront to enable in-place updates, but these matrices (with zero-padded rows) cause redundant computations. In this work, we propose a new KV cache allocation mechanism called Balancing Memory and Compute (BMC). BMC allocates, once every r iterations, KV tensors with r redundant rows, allowing in-place update without copy overhead for those iterations, but at the expense of a small amount of redundant computation. Second, we make an interesting observation that the extra rows allocated in the KV tensors and the resulting redundant computation can be repurposed for Speculative Decoding (SD) that improves token generation efficiency. Last, BMC represents a spectrum of design points with different values of r. To identify the best-performing design point(s), we derive a simple analytical model for BMC. The proposed BMC method achieves an average throughput acceleration of up to 3.2x over baseline HuggingFace (without SD). Importantly when we apply BMC with SD, it results in an additional speedup of up to 1.39x, over and above the speedup offered by SD. Further, BMC achieves a throughput acceleration of up to 1.36x and 2.29x over state-of-the-art inference servers vLLM and DeepSpeed, respectively. Although the BMC technique is evaluated extensively across different classes of CPUs (desktop and server class), we also evaluate the scheme with GPUs and demonstrate that it works well for GPUs.
- Abstract(参考訳): GPUとクラウド上の仮想インスタンスの急激なコストにより、大規模な言語モデル(LLM)推論にCPUを使用したいという大きな願望がある。
KVキャッシュ更新は、しばしばアロケーション、コピー、および各生成されたトークンのインプレースストライド更新として実装され、重大なオーバーヘッドを引き起こす。
シーケンスの長さが増加するにつれて、アロケーションとコピーのオーバーヘッドがパフォーマンスを支配します。
代替的なアプローチは、大きなKVテンソルを前方に割り当てて、インプレース更新を可能にするが、これらの行列(パッド付き行がゼロ)は冗長な計算を引き起こす。
本研究では,Balancing Memory and Compute (BMC)と呼ばれる新しいKVキャッシュ割り当て機構を提案する。
BMCは、rイテレーション毎にKVテンソルをr冗長行で割り当て、これらのイテレーションのオーバーヘッドをコピーすることなく、少量の冗長計算を犠牲にして、インプレース更新を可能にする。
第二に、KVテンソルに割り当てられた余分な行と結果として生じる冗長な計算が、トークン生成効率を向上させる投機的復号(SD)のために再利用できるという興味深い観察を行う。
最後に、BMC は r の異なる値を持つ設計点のスペクトルを表す。
最適設計点を特定するため,BMCの簡易解析モデルを導出する。
提案手法は,ベースラインHugingFace上での最大3.2倍のスループット向上を実現する(SDなしで)。
重要なことに、BMCをSDで適用すると、SDで提供されるスピードアップの上下に、最大1.39倍のスピードアップが得られる。
さらに、BMCは、それぞれ最先端の推論サーバvLLMとDeepSpeedで最大1.36xと2.29xのスループット加速を達成する。
BMC技術はCPUの異なるクラス(デスクトップクラスとサーバクラス)で広く評価されているが、GPUを用いてそのスキームを評価し、GPUでうまく動作することを示す。
関連論文リスト
- CommVQ: Commutative Vector Quantization for KV Cache Compression [50.37946553931796]
本稿では,長期LLM推論におけるメモリ使用量を大幅に削減するために,CommVQ(CommVQ)を提案する。
まず、KVキャッシュを圧縮するための軽量エンコーダとコードブックを用いた加算量子化を導入する。
提案手法は,RoPE-commutative codebook を用いた加算量子化と低オーバーヘッド化により高い精度を実現する。
論文 参考訳(メタデータ) (2025-06-23T17:50:11Z) - SparseTransX: Efficient Training of Translation-Based Knowledge Graph Embeddings Using Sparse Matrix Operations [1.5998912722142724]
知識グラフ(KG)学習は、新しい知識を生成し、推論を行うための強力なフレームワークを提供する。
KG埋め込みのトレーニングには、特に大規模なデータセットでは、非常に長い時間がかかる可能性がある。
コア埋め込みをSpMMカーネルに置き換えることでこの問題に対処する。
これにより、複数のスキャッタ操作を単一の操作として統一し、トレーニング時間とメモリ使用量を削減できます。
論文 参考訳(メタデータ) (2025-02-24T08:21:48Z) - A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。
まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。
3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文 参考訳(メタデータ) (2025-02-21T10:12:34Z) - BiMaCoSR: Binary One-Step Diffusion Model Leveraging Flexible Matrix Compression for Real Super-Resolution [63.777210548110425]
本稿では,バイナライゼーションと1段階蒸留を組み合わせたBiMaCoSRを提案する。
BiMaCoSRはFPに比べて23.8倍圧縮率と27.4倍スピードアップ比を達成した。
論文 参考訳(メタデータ) (2025-02-01T06:34:55Z) - KVPR: Efficient LLM Inference with I/O-Aware KV Cache Partial Recomputation [7.204881999658682]
キーバリューキャッシュは、大きな言語モデルの中間アクティベーションを格納するために使用される。
KVキャッシュに必要なメモリは急速に増加し、しばしばGPUメモリの容量を超える。
既存の方法は、GPU計算をI/Oで重複させたり、CPU-GPUの不均一な実行を採用することで、これらの問題に対処しようとする。
本稿では,CPUが最初にアクティベーションの部分集合を転送する,効率的なI/O対応LPM推論手法であるKVPRを紹介する。
KVPRは、最先端のアプローチと比較して最大で35.8%のレイテンシと46.2%のスループットを実現している。
論文 参考訳(メタデータ) (2024-11-26T04:03:14Z) - Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - DeFT: Decoding with Flash Tree-attention for Efficient Tree-structured LLM Inference [22.684773338989007]
大規模言語モデル(LLM)は、トークンの共有プレフィックスを持つツリー構造において、複数の世代呼び出しを処理する複雑なタスクにますます採用されている。
木に基づくアプリケーションの既存の推論システムは、注意計算中にクエリとKVキャッシュの不適切なパーティショニングのために非効率である。
我々は,プレフィックス認識と負荷分散KVキャッシュパーティションを用いたハードウェア効率の高いアテンションアルゴリズムであるDeFTを提案する。
論文 参考訳(メタデータ) (2024-03-30T04:34:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。