論文の概要: ORBITFLOW: SLO-Aware Long-Context LLM Serving with Fine-Grained KV Cache Reconfiguration
- arxiv url: http://arxiv.org/abs/2601.10729v1
- Date: Mon, 05 Jan 2026 04:02:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.723945
- Title: ORBITFLOW: SLO-Aware Long-Context LLM Serving with Fine-Grained KV Cache Reconfiguration
- Title(参考訳): ORBITFLOW:細粒KVキャッシュ再構成によるSLO対応長期LLM
- Authors: Xinyue Ma, Heelim Hong, Taegeon Um, Jongseop Lee, Seoyeong Choy, Woo-Yeon Lee, Myeongjae Jeon,
- Abstract要約: KVキャッシュをホストメモリにオフロードすることは、効果的なメモリ使用量を制限する。
本稿では,細粒度かつ適応的なKVキャッシュ管理システムORBITFLOWを紹介する。
実験の結果,ORBITFLOWはTPOTとTBTのSLO達成率を最大66%,TBTは48%向上した。
- 参考スコア(独自算出の注目度): 1.2879848319971192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Serving long-context LLMs is challenging because request lengths and batch composition vary during token generation, causing the memory footprint to fluctuate significantly at runtime. Offloading KV caches to host memory limits effective memory usage, but existing static and predetermined offloading strategies cannot adapt to the rapidly shifting memory demands of long-context serving. This often leads to excessive CPU-to-GPU KV transfers that translate into latency spikes and frequent SLO violations. To address these challenges, we introduce ORBITFLOW, a fine-grained and adaptive KV cache management system that meets latency SLOs in long-context LLM serving. ORBITFLOW employs a lightweight ILP solver to decide which layers' KV caches to retain on the GPU for each request, within memory capacity constraints. It continuously refines KV placements based on runtime feedback when the active plan becomes suboptimal during token generation. Under heavy load, ORBITFLOW invokes a fallback mechanism to temporarily defer in-flight requests with large memory footprints, preserving overall SLO attainment. Our experiments demonstrate that ORBITFLOW improves SLO attainment for TPOT and TBT by up to 66% and 48%, respectively, while reducing the 95th percentile latency by 38% and achieving up to 3.3x higher throughput compared to existing offloading methods.
- Abstract(参考訳): 要求長とバッチ構成がトークン生成時に異なるため、メモリフットプリントが実行時に大幅に変動するため、長いコンテキストでLLMを実行することは難しい。
KVキャッシュをホストメモリにオフロードすることはメモリ使用を効果的に制限するが、既存の静的および所定のオフロード戦略は、ロングコンテキストサービスによる急速に変化するメモリ要求に適応できない。
これにより、CPUからGPUへのKV転送が過剰になり、レイテンシのスパイクと頻繁にSLO違反が発生する。
これらの課題に対処するために, ORBITFLOWを導入し, 長文LLMサービスにおける遅延SLOに適合する粒度で適応的なKVキャッシュ管理システムを提案する。
ORBITFLOWは軽量なILPソルバを使用して、メモリ容量の制約の中で、要求毎にGPUに保持するKVキャッシュを決定する。
トークン生成中にアクティブプランが最適以下になると、ランタイムフィードバックに基づいてKV配置を継続的に改善する。
重い負荷下でORBITFLOWは、大規模なメモリフットプリントで一時的に飛行中の要求を遅延させるフォールバック機構を起動し、SLO全体の達成を保存する。
実験の結果, ORBITFLOWはTPOTとTBTのSLO達成率を最大66%, 48%改善し, 95%のレイテンシを38%削減し, 既存のオフロード方式に比べて最大3.3倍のスループットを実現した。
関連論文リスト
- InfiniteVL: Synergizing Linear and Sparse Attention for Highly-Efficient, Unlimited-Input Vision-Language Models [49.08289742711585]
我々は、Gated DeltaNetとSWA(Slide window attention)を相乗化する線形複雑VLMアーキテクチャであるInfiniteVLを提案する。
InfiniteVLは、一定のレイテンシとメモリフットプリントを維持しながら、3.6時間以上の推論高速化を実現する。
ストリーミングビデオ理解のシナリオでは、長期メモリキャッシュを保持しながら、24FPSのリアルタイムプリフィル速度を安定的に維持する。
論文 参考訳(メタデータ) (2025-12-09T17:18:32Z) - Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [72.27673320976933]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおけるブレークスルーを可能にする。
現在のキャッシュ技術は、フルレイヤ状態を保存することでデコーディングを加速するが、メモリ使用量を大幅に増加させる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z) - BucketServe: Bucket-Based Dynamic Batching for Smart and Efficient LLM Inference Serving [3.620158146761518]
BucketServeは、推論パフォーマンスを最適化するために設計されたバケットベースの動的フレームワークである。
UELLMと比較して1.93倍の要求負荷を達成でき、UELLMよりも1.975倍高いシステム負荷能力を示す。
論文 参考訳(メタデータ) (2025-07-23T01:51:48Z) - QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。
これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。
そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文 参考訳(メタデータ) (2025-02-05T20:43:48Z) - Locret: Enhancing Eviction in Long-Context LLM Inference with Trained Retaining Heads on Consumer-Grade Devices [30.690302709678758]
Locretは、チャンクされたプリフィルと互換性のある退行ポリシーを作成するための最初のフレームワークである。
Locretは最大20倍のKVキャッシュ圧縮比を10%未満の性能損失で達成できることを示す。
また、Locretは1つのNVIDIA 4090 GPU上で128K以上の長コンテキスト推論を、生成品質を損なうことなく達成していることを示す。
論文 参考訳(メタデータ) (2024-10-02T17:59:52Z) - LayerKV: Optimizing Large Language Model Serving with Layer-wise KV Cache Management [23.431794605498084]
ハードウェアの追加や出力性能の向上を必要とせずにTTFTを効果的に削減する,シンプルで効果的なプラグイン手法であるLayer KVを提案する。
レイヤKVは、システムメモリのきめ細かい制御のために、レイヤワイズなKVブロック割り当て、管理、オフロードを導入します。
様々なGPU構成の7Bから70Bパラメータを含む代表モデルの包括的な評価は、Layer KVがTTFTレイテンシを69倍に改善し、SLO違反率を28.7%削減することを示した。
論文 参考訳(メタデータ) (2024-10-01T06:23:17Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。