論文の概要: PipeLive: Efficient Live In-place Pipeline Parallelism Reconfiguration for Dynamic LLM Serving
- arxiv url: http://arxiv.org/abs/2604.12171v1
- Date: Tue, 14 Apr 2026 00:56:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.17882
- Title: PipeLive: Efficient Live In-place Pipeline Parallelism Reconfiguration for Dynamic LLM Serving
- Title(参考訳): PipeLive: 動的LLM実行のための効率的なライブインプレースパイプライン並列性再構成
- Authors: Xu Bai, Muhammed Tawfiqul Islam, Chen Wang, Adel N. Toosi,
- Abstract要約: PipeLiveは、最小限のディスラプションで、ライブインプレースパイプライン(PP)再構成を可能にする。
KVリサイズを無効にするよりも、KVキャッシュオーバーフローのないTTFT(Time-to-first-token)の2.5倍の削減を実現している。
また、TTFTとTPOT(time-per-output-token)をそれぞれ54.7%、14.7%改善している。
- 参考スコア(独自算出の注目度): 6.203481147285058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pipeline parallelism (PP) is widely used to partition layers of large language models (LLMs) across GPUs, enabling scalable inference for large models. However, existing systems rely on static PP configurations that fail to adapt to dynamic settings, such as serverless platforms and heterogeneous GPU environments. Reconfiguring PP by stopping and redeploying service incurs prohibitive downtime, so reconfiguration must instead proceed live and in place, without interrupting inference. However, live in-place PP reconfiguration is fundamentally challenging. GPUs are already saturated with model weights and KV cache, leaving little room for new layer placements and necessitating KV cache resizing, at odds with systems like vLLM that preallocate for throughput. Moreover, maintaining KV consistency during execution is difficult: stop-and-copy introduces large pauses, while background synchronization risks inconsistency as states evolve. We present PipeLive, which enables live in-place PP reconfiguration with minimal disruption. PipeLive introduces a redesigned KV cache layout together with a co-designed extension to PageAttention, forming a unified mechanism for live KV resizing. It further adopts an incremental KV patching mechanism, inspired by live virtual machine migration, to synchronize KV states between source and target configurations and identify a safe switch point. PipeLive achieves a 2.5X reduction in time-to-first-token (TTFT) without KV cache overflow compared to disabling KV resizing. Furthermore, compared to a variant without KV patching, it reduces reconfiguration overhead from seconds to under 10ms, and improves TTFT and time-per-output-token (TPOT) by up to 54.7% and 14.7%, respectively.
- Abstract(参考訳): パイプライン並列性(PP)は、大規模言語モデル(LLM)の層をGPU間で分割するために広く使われ、大規模モデルのスケーラブルな推論を可能にする。
しかし、既存のシステムは静的PP設定に依存しており、サーバレスプラットフォームや異種GPU環境のような動的設定に適応できない。
サービス停止と再デプロイによるPPの再設定は、禁止されたダウンタイムを引き起こします。
しかし、PPリコンフィグレーションをオンプレースで実行することは基本的に困難である。
GPUはすでにモデルウェイトとKVキャッシュで飽和しており、新しいレイヤ配置とKVキャッシュのリサイズを必要とする余地はほとんど残っていない。
さらに、実行中のKV一貫性の維持は困難である。ストップアンドコピーは大きな一時停止を導入し、バックグラウンド同期は状態が進化するにつれて一貫性を損なう。
最小限のディスラプションでPPリコンフィグレーションをライブで行えるPipeLiveを提案する。
PipeLiveは、PageAttentionへの拡張とともに、再設計されたKVキャッシュレイアウトを導入し、ライブKVリサイズのための統一されたメカニズムを形成する。
さらに、ライブ仮想マシンマイグレーションにインスパイアされたインクリメンタルなKVパッチ機構を採用して、ソースとターゲット設定間のKV状態を同期させ、安全なスイッチポイントを特定する。
PipeLiveは、KVリサイズを無効にするのに比べて、KVキャッシュオーバーフローのないTTFT(Time-to-first-token)の2.5倍の削減を実現している。
さらに、KVパッチのない変種と比較して、再構成オーバーヘッドを秒単位から10ミリ秒未満に減らし、TTFTとTPOTをそれぞれ54.7%、14.7%改善する。
関連論文リスト
- EchoKV: Efficient KV Cache Compression via Similarity-Based Reconstruction [55.026048429595384]
EchoKVは、標準と圧縮された推論間のオンデマンド移行を可能にする柔軟なKVキャッシュ圧縮スキームである。
高速で低コストなトレーニングを可能にする2段階の微調整戦略を導入する。
論文 参考訳(メタデータ) (2026-03-24T07:58:42Z) - DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity [50.52392445266824]
そこで本稿では,KV表現における長距離間類似性と高共有遅延成分を動機とする残差ベースのKVキャッシュ圧縮フレームワークを提案する。
DeltaKVはトークンを捨てる代わりに、検索した履歴参照に対するセマンティックな残基をエンコードし、保存を著しく削減する。
実験によると、DeltaKVは、LongBench、SCBench、AIMEでほぼロスレスの精度を維持しながら、KVキャッシュメモリを元の29%に削減している。
論文 参考訳(メタデータ) (2026-02-08T15:14:36Z) - KV-CAR: KV Cache Compression using Autoencoders and KV Reuse in Large Language Models [3.5171501100868876]
KVキャッシュはシーケンス長と埋め込み次元で成長し、しばしばモデル自体のメモリフットプリントを超える。
KV CARは,モデル忠実性を維持しつつ,KVキャッシュストレージを大幅に削減する,統一的で非依存なアーキテクチャフレームワークである。
Wikitext、C4、PIQA、WinograndeデータセットにわたるGPT 2とTinyLLaMAモデルの評価は、KV CARが最大47.85パーセントのKVキャッシュメモリ削減を達成したことを示している。
論文 参考訳(メタデータ) (2025-12-07T08:40:52Z) - KV Cache Transform Coding for Compact Storage in LLM Inference [2.20003167536462]
KVTCは、KVキャッシュをコンパクトなオンGPUとオフGPUストレージに圧縮する軽量トランスフォーメーションコーダである。
KVキャッシュの冗長性を活用することで、KVTCは推論と長文の精度を維持しながら最大20$times$圧縮を達成する。
我々は、AIME25、LiveCodeBench、GSM8K、MMLU、Qasper、RULER、MATH-500を含むベンチマークで、Llama 3、Mistral NeMo、R1-Qwen 2.5モデルでKVTCをテストする。
論文 参考訳(メタデータ) (2025-11-03T18:20:35Z) - PatternKV: Flattening KV Representation Expands Quantization Headroom [37.83913102876393]
自己回帰 LLM における KV キャッシュは冗長な再計算を排除しているが、推論時に支配的なメモリと帯域幅のボトルネックとして出現している。
KV量子化はキャッシュコストを削減するキーレバーであるが、ネイティブなKV分布が平坦性に欠けるため、精度は急激に低下する。
Kキャッシュは、コンテキストとともに徐々に進化する安定した構造を維持し、Vキャッシュは潜在意味規則性を持つことを示す。
論文 参考訳(メタデータ) (2025-10-05T12:09:14Z) - OjaKV: Context-Aware Online Low-Rank KV Cache Compression with Oja's Rule [54.37983890753086]
我々は,戦略的ハイブリッドストレージポリシとオンラインサブスペース適応を統合したフレームワークであるOjaKVを紹介する。
OjaKVは、重要かつ最新のトークンをフルランクで保存し、注意のために高忠実なアンカーを維持している。
オンライン主成分分析のためのOjaのアルゴリズムを用いて、プロジェクションベースを漸進的に適応させることにより、低ランク圧縮を適用する。
論文 参考訳(メタデータ) (2025-09-25T21:42:27Z) - FlowKV: Enhancing Multi-Turn Conversational Coherence in LLMs via Isolated Key-Value Cache Management [48.904743679691414]
FlowKVはKVキャッシュ管理のための新しいマルチターン分離機構である。
蓄積された圧縮KVキャッシュを過去のターンから保存する。
古い文脈の再圧縮を防ぎ、破滅的な忘れを和らげる。
論文 参考訳(メタデータ) (2025-05-21T10:20:46Z) - KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。
実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。
我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文 参考訳(メタデータ) (2024-10-24T08:06:41Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。