論文の概要: Towards Resiliency in Large Language Model Serving with KevlarFlow
- arxiv url: http://arxiv.org/abs/2601.22438v1
- Date: Fri, 30 Jan 2026 01:17:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.139034
- Title: Towards Resiliency in Large Language Model Serving with KevlarFlow
- Title(参考訳): KevlarFlowを用いた大規模言語モデルのレジリエンスに向けて
- Authors: Shangshu Qian, Kipling Liu, P. C. Sruthi, Lin Tan, Yongle Zhang,
- Abstract要約: KevlarFlowは、ハードウェアの信頼性の低下とサービス可用性のギャップを埋めるために設計された、フォールトサービスアーキテクチャである。
KevlarFlowは平均回復時間(MTTR)を20倍に削減し、故障条件下では平均遅延を3.1倍改善することを示した。
- 参考スコア(独自算出の注目度): 6.576908567219356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM) serving systems remain fundamentally fragile, where frequent hardware faults in hyperscale clusters trigger disproportionate service outages in the software stack. Current recovery mechanisms are prohibitively slow, often requiring up to 10 minutes to reinitialize resources and reload massive model weights. We introduce KevlarFlow, a fault tolerant serving architecture designed to bridge the gap between hardware unreliability and service availability. KevlarFlow leverages 1) decoupled model parallelism initialization, 2) dynamic traffic rerouting, and 3) background KV cache replication to maintain high throughput during partial failures. Our evaluation demonstrates that KevlarFlow reduces mean-time-to-recovery (MTTR) by 20x and, under failure conditions, improves average latency by 3.1x, 99th percentile (p99) latency by 2.8x, average time-to-first-token (TTFT) by 378.9x, and p99 TTFT by 574.6x with negligible runtime overhead in comparison to state-of-the-art LLM serving systems.
- Abstract(参考訳): 大規模言語モデル(LLM)サービスシステムは基本的に脆弱であり、ハイパースケールクラスタにおけるハードウェア障害がソフトウェアスタック内の不均衡なサービス停止を引き起こします。
現在の回復メカニズムは違法に遅く、しばしば資源を再起動し、巨大なモデルの重量をリロードするのに最大10分を要する。
ハードウェアの不信頼性とサービス可用性のギャップを埋めるために設計されたフォールトトレラントなサービスアーキテクチャであるKevlarFlowを紹介します。
KevlarFlowが活用
1)分離モデル並列化初期化
2)ダイナミックトラフィックのリルーティング、及び
3) バックグラウンドKVキャッシュのレプリケーションにより、部分的障害時に高いスループットを維持する。
評価の結果、ケブラーフローは平均時間復旧(MTTR)を20倍に削減し、故障条件下では平均レイテンシを3.1倍、99番目のパーセンタイル(p99)レイテンシを2.8倍、平均タイム・ツー・ファースト・トケン(TTFT)を378.9倍、p99 TTFTを574.6倍改善し、最先端のLCMサービスシステムと比較してランタイムオーバーヘッドが無視できることを示した。
関連論文リスト
- HALO: Semantic-Aware Distributed LLM Inference in Lossy Edge Network [50.33808558714122]
エッジでの大規模言語モデル(LLM)推論は、ユーザのプライバシを保護すると同時に、サービスの応答性を促進する。
損失エッジネットワークにおける分散LLM推論を向上する新しいフレームワークであるHALOを提案する。
Raspberry Piクラスタによる実験の結果、HALOは信頼性の低いネットワーク条件下でLLaMAシリーズLLMの3.41倍のエンドツーエンドのスピードアップを達成した。
論文 参考訳(メタデータ) (2026-01-16T07:37:23Z) - ORBITFLOW: SLO-Aware Long-Context LLM Serving with Fine-Grained KV Cache Reconfiguration [1.2879848319971192]
KVキャッシュをホストメモリにオフロードすることは、効果的なメモリ使用量を制限する。
本稿では,細粒度かつ適応的なKVキャッシュ管理システムORBITFLOWを紹介する。
実験の結果,ORBITFLOWはTPOTとTBTのSLO達成率を最大66%,TBTは48%向上した。
論文 参考訳(メタデータ) (2026-01-05T04:02:34Z) - InfiniteVL: Synergizing Linear and Sparse Attention for Highly-Efficient, Unlimited-Input Vision-Language Models [49.08289742711585]
我々は、Gated DeltaNetとSWA(Slide window attention)を相乗化する線形複雑VLMアーキテクチャであるInfiniteVLを提案する。
InfiniteVLは、一定のレイテンシとメモリフットプリントを維持しながら、3.6時間以上の推論高速化を実現する。
ストリーミングビデオ理解のシナリオでは、長期メモリキャッシュを保持しながら、24FPSのリアルタイムプリフィル速度を安定的に維持する。
論文 参考訳(メタデータ) (2025-12-09T17:18:32Z) - CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z) - FastSwitch: Optimizing Context Switching Efficiency in Fairness-aware Large Language Model Serving [2.5833506260502306]
既存のシステムはスループットを過度に優先順位付けし、プリエンプションによって引き起こされるコンテキストスイッチによって引き起こされるオーバーヘッドを見渡す傾向がある。
FastSwitchは、既存のKVキャッシュメモリ割り当てポリシーに適合するだけでなく、コンテキストスイッチングオーバーヘッドを軽減するフェアネス対応のサービスシステムである。
我々の評価によると、FastSwitchは最先端のLLMサービスシステムであるvLLMよりも、尾部TTFTとTBTで1.4-11.2xの高速化を実現している。
論文 参考訳(メタデータ) (2024-11-27T15:07:28Z) - LayerKV: Optimizing Large Language Model Serving with Layer-wise KV Cache Management [23.431794605498084]
ハードウェアの追加や出力性能の向上を必要とせずにTTFTを効果的に削減する,シンプルで効果的なプラグイン手法であるLayer KVを提案する。
レイヤKVは、システムメモリのきめ細かい制御のために、レイヤワイズなKVブロック割り当て、管理、オフロードを導入します。
様々なGPU構成の7Bから70Bパラメータを含む代表モデルの包括的な評価は、Layer KVがTTFTレイテンシを69倍に改善し、SLO違反率を28.7%削減することを示した。
論文 参考訳(メタデータ) (2024-10-01T06:23:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。