論文の概要: Enhancing LLM Efficiency: Targeted Pruning for Prefill-Decode Disaggregation in Inference
- arxiv url: http://arxiv.org/abs/2509.04467v1
- Date: Fri, 29 Aug 2025 02:29:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.301839
- Title: Enhancing LLM Efficiency: Targeted Pruning for Prefill-Decode Disaggregation in Inference
- Title(参考訳): LLM効率の向上:推論におけるプリフィル・デコード分散のためのターゲットプルーニング
- Authors: Hao Zhang, Mengsi Lyu, Yulong Ao, Yonghua Lin,
- Abstract要約: 大規模言語モデル(LLM)は、様々なタスクにまたがる例外的な能力を示すが、その展開は高い計算とメモリコストに制約される。
より正確で効率的なブロックとKVキャッシュのプルーニングを可能にするPD分散推論のための新しいプルーニング法を提案する。
- 参考スコア(独自算出の注目度): 5.127648076034455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) demonstrate exceptional capabilities across various tasks, but their deployment is constrained by high computational and memory costs. Model pruning provides an effective means to alleviate these demands. However, existing methods often ignore the characteristics of prefill-decode (PD) disaggregation in practice. In this paper, we propose a novel pruning method for PD disaggregation inference, enabling more precise and efficient block and KV Cache pruning. Our approach constructs pruning and distillation sets to perform iterative block removal independently for the prefill and decode stages, obtaining better pruning solutions. Moreover, we introduce a token-aware cache pruning mechanism that retains all KV Cache in the prefill stage but selectively reuses entries for the first and last token sequences in selected layers during decode, reducing communication costs with minimal overhead. Extensive experiments demonstrate that our approach consistently achieves strong performance in both PD disaggregation and PD unified settings without disaggregation. Under the default settings, our method achieves a 20.56% inference speedup and a 4.95 times reduction in data transmission bandwidth consumption.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクにまたがる例外的な能力を示すが、その展開は高い計算とメモリコストに制約される。
モデルプルーニングは、これらの要求を緩和する効果的な手段を提供する。
しかし,既存の手法では,プリフィル・デコード(PD)のデアグリゲーションの特性を無視することが多い。
本稿では,PDデアグリゲーション推論のための新しいプルーニング手法を提案し,より正確で効率的なブロックとKVキャッシュのプルーニングを実現する。
本手法は, プレフィルおよびデコード段階で独立に反復的ブロック除去を行うために, プルーニングおよび蒸留セットを構築し, より優れたプルーニング解を得る。
さらに、プリフィル段階ではすべてのKVキャッシュを保持するが、デコード時に選択された層における第1および最後のトークンシーケンスのエントリを選択的に再利用し、通信コストを最小限のオーバーヘッドで削減するトークン対応キャッシュプルーニング機構を導入する。
広汎な実験により, PD分散化とPD統合化の両面において, 解離を伴わない強い性能が得られた。
デフォルト設定では,推定速度が20.56%向上し,データ伝送帯域幅の4.95倍の削減を実現している。
関連論文リスト
- Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [58.044803442346115]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおいてブレークスルーを実現するが、推論中に計算の複雑さやメモリオーバーヘッドに悩まされる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークであり、遅延双方向スパースキャッシングを経由するスパースアテンションである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z) - Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Ada-KV: Optimizing KV Cache Eviction by Adaptive Budget Allocation for Efficient LLM Inference [19.447729423696096]
大規模言語モデルは様々なドメインで優れていますが、キーバリュー(KV)キャッシュの増加によって効率上の課題に直面しています。
最近の取り組みは、実行中に大量の非クリティカルキャッシュ要素を排除し、KVキャッシュサイズを削減することを目的としている。
本稿では,Ada-KVを提案する。
論文 参考訳(メタデータ) (2024-07-16T09:53:32Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。