論文の概要: ORBITFLOW: SLO-Aware Long-Context LLM Serving with Fine-Grained KV Cache Reconfiguration
- arxiv url: http://arxiv.org/abs/2601.10729v1
- Date: Mon, 05 Jan 2026 04:02:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.723945
- Title: ORBITFLOW: SLO-Aware Long-Context LLM Serving with Fine-Grained KV Cache Reconfiguration
- Title(参考訳): ORBITFLOW:細粒KVキャッシュ再構成によるSLO対応長期LLM
- Authors: Xinyue Ma, Heelim Hong, Taegeon Um, Jongseop Lee, Seoyeong Choy, Woo-Yeon Lee, Myeongjae Jeon,
- Abstract要約: KVキャッシュをホストメモリにオフロードすることは、効果的なメモリ使用量を制限する。
本稿では,細粒度かつ適応的なKVキャッシュ管理システムORBITFLOWを紹介する。
実験の結果,ORBITFLOWはTPOTとTBTのSLO達成率を最大66%,TBTは48%向上した。
- 参考スコア(独自算出の注目度): 1.2879848319971192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Serving long-context LLMs is challenging because request lengths and batch composition vary during token generation, causing the memory footprint to fluctuate significantly at runtime. Offloading KV caches to host memory limits effective memory usage, but existing static and predetermined offloading strategies cannot adapt to the rapidly shifting memory demands of long-context serving. This often leads to excessive CPU-to-GPU KV transfers that translate into latency spikes and frequent SLO violations. To address these challenges, we introduce ORBITFLOW, a fine-grained and adaptive KV cache management system that meets latency SLOs in long-context LLM serving. ORBITFLOW employs a lightweight ILP solver to decide which layers' KV caches to retain on the GPU for each request, within memory capacity constraints. It continuously refines KV placements based on runtime feedback when the active plan becomes suboptimal during token generation. Under heavy load, ORBITFLOW invokes a fallback mechanism to temporarily defer in-flight requests with large memory footprints, preserving overall SLO attainment. Our experiments demonstrate that ORBITFLOW improves SLO attainment for TPOT and TBT by up to 66% and 48%, respectively, while reducing the 95th percentile latency by 38% and achieving up to 3.3x higher throughput compared to existing offloading methods.
- Abstract(参考訳): 要求長とバッチ構成がトークン生成時に異なるため、メモリフットプリントが実行時に大幅に変動するため、長いコンテキストでLLMを実行することは難しい。
KVキャッシュをホストメモリにオフロードすることはメモリ使用を効果的に制限するが、既存の静的および所定のオフロード戦略は、ロングコンテキストサービスによる急速に変化するメモリ要求に適応できない。
これにより、CPUからGPUへのKV転送が過剰になり、レイテンシのスパイクと頻繁にSLO違反が発生する。
これらの課題に対処するために, ORBITFLOWを導入し, 長文LLMサービスにおける遅延SLOに適合する粒度で適応的なKVキャッシュ管理システムを提案する。
ORBITFLOWは軽量なILPソルバを使用して、メモリ容量の制約の中で、要求毎にGPUに保持するKVキャッシュを決定する。
トークン生成中にアクティブプランが最適以下になると、ランタイムフィードバックに基づいてKV配置を継続的に改善する。
重い負荷下でORBITFLOWは、大規模なメモリフットプリントで一時的に飛行中の要求を遅延させるフォールバック機構を起動し、SLO全体の達成を保存する。
実験の結果, ORBITFLOWはTPOTとTBTのSLO達成率を最大66%, 48%改善し, 95%のレイテンシを38%削減し, 既存のオフロード方式に比べて最大3.3倍のスループットを実現した。
関連論文リスト
- DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity [50.52392445266824]
そこで本稿では,KV表現における長距離間類似性と高共有遅延成分を動機とする残差ベースのKVキャッシュ圧縮フレームワークを提案する。
DeltaKVはトークンを捨てる代わりに、検索した履歴参照に対するセマンティックな残基をエンコードし、保存を著しく削減する。
実験によると、DeltaKVは、LongBench、SCBench、AIMEでほぼロスレスの精度を維持しながら、KVキャッシュメモリを元の29%に削減している。
論文 参考訳(メタデータ) (2026-02-08T15:14:36Z) - SuperInfer: SLO-Aware Rotary Scheduling and Memory Management for LLM Inference on Superchips [13.816966749411037]
新興スーパーチップ(NVIDIA GH200など)向けに設計された高性能大型モデル(LLM)推論システムであるSuperInferを提案する。
SuperInferは、最初のプロアクティブなSLOawareロータリスケジューラであるRotaSchedを導入し、Superchipsの応答性を維持するためにリクエストをローテーションする。
SuperInfer は TTFT SLO 達成率を 74.7% まで改善し,TBT とスループットを最先端システムと比較した。
論文 参考訳(メタデータ) (2026-01-28T07:01:46Z) - InfiniteVL: Synergizing Linear and Sparse Attention for Highly-Efficient, Unlimited-Input Vision-Language Models [49.08289742711585]
我々は、Gated DeltaNetとSWA(Slide window attention)を相乗化する線形複雑VLMアーキテクチャであるInfiniteVLを提案する。
InfiniteVLは、一定のレイテンシとメモリフットプリントを維持しながら、3.6時間以上の推論高速化を実現する。
ストリーミングビデオ理解のシナリオでは、長期メモリキャッシュを保持しながら、24FPSのリアルタイムプリフィル速度を安定的に維持する。
論文 参考訳(メタデータ) (2025-12-09T17:18:32Z) - DynaKV: Enabling Accurate and Efficient Long-Sequence LLM Decoding on Smartphones [10.813495376006427]
大規模言語モデル(LLM)は、効率的で効果的な長シーケンスデコードをサポートすることがますます期待されている。
DRAM容量が限られているため、スマートフォン上でのLLM復号化はキー値キャッシュ(KVCache)によって制限される。
我々はDynaKVを提案する。DynaKVはスマートフォン上での長時間デコードにおける精度と効率を両立させる最初の適応KVキャッシュ管理手法である。
論文 参考訳(メタデータ) (2025-10-20T08:56:02Z) - Accelerating LLM Inference via Dynamic KV Cache Placement in Heterogeneous Memory System [20.652641518700346]
大規模言語モデル(LLM)推論は、メモリ帯域幅によってますます制限される。
現代のAIハードウェアは、高速オフパッケージDRAMと高速帯域メモリ(HBM)を統合している。
本研究は,キャパシティ制約下での集積帯域利用を最大化するために,そのようなシステムにまたがる動的KVキャッシュ配置について検討する。
論文 参考訳(メタデータ) (2025-08-17T19:07:08Z) - Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [72.27673320976933]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおけるブレークスルーを可能にする。
現在のキャッシュ技術は、フルレイヤ状態を保存することでデコーディングを加速するが、メモリ使用量を大幅に増加させる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z) - BucketServe: Bucket-Based Dynamic Batching for Smart and Efficient LLM Inference Serving [3.620158146761518]
BucketServeは、推論パフォーマンスを最適化するために設計されたバケットベースの動的フレームワークである。
UELLMと比較して1.93倍の要求負荷を達成でき、UELLMよりも1.975倍高いシステム負荷能力を示す。
論文 参考訳(メタデータ) (2025-07-23T01:51:48Z) - LaCache: Ladder-Shaped KV Caching for Efficient Long-Context Modeling of Large Language Models [52.56008278458534]
LaCacheは、大規模言語モデルの効率的かつ正確な生成推論のためのトレーニング不要の手法である。
LaCacheを使用することで、LLMは長期モデリングにおける重要な課題、すなわち堅牢な長距離機能と、メモリのアウト・オブ・メモリを走らせることなく連続的な生成の両方に対処できる。
論文 参考訳(メタデータ) (2025-07-14T19:09:57Z) - QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。
これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。
そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文 参考訳(メタデータ) (2025-02-05T20:43:48Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Locret: Enhancing Eviction in Long-Context LLM Inference with Trained Retaining Heads on Consumer-Grade Devices [30.690302709678758]
Locretは、チャンクされたプリフィルと互換性のある退行ポリシーを作成するための最初のフレームワークである。
Locretは最大20倍のKVキャッシュ圧縮比を10%未満の性能損失で達成できることを示す。
また、Locretは1つのNVIDIA 4090 GPU上で128K以上の長コンテキスト推論を、生成品質を損なうことなく達成していることを示す。
論文 参考訳(メタデータ) (2024-10-02T17:59:52Z) - LayerKV: Optimizing Large Language Model Serving with Layer-wise KV Cache Management [23.431794605498084]
ハードウェアの追加や出力性能の向上を必要とせずにTTFTを効果的に削減する,シンプルで効果的なプラグイン手法であるLayer KVを提案する。
レイヤKVは、システムメモリのきめ細かい制御のために、レイヤワイズなKVブロック割り当て、管理、オフロードを導入します。
様々なGPU構成の7Bから70Bパラメータを含む代表モデルの包括的な評価は、Layer KVがTTFTレイテンシを69倍に改善し、SLO違反率を28.7%削減することを示した。
論文 参考訳(メタデータ) (2024-10-01T06:23:17Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。