論文の概要: LatencyPrism: Online Non-intrusive Latency Sculpting for SLO-Guaranteed LLM Inference
- arxiv url: http://arxiv.org/abs/2601.09258v1
- Date: Wed, 14 Jan 2026 07:46:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.318496
- Title: LatencyPrism: Online Non-intrusive Latency Sculpting for SLO-Guaranteed LLM Inference
- Title(参考訳): LatencyPrism: SLO-Guaranteed LLM推論のためのオンライン非侵入型レイテンシスクリプティング
- Authors: Du Yin, Jiayi Ren, Xiayu Sun, Tianyao Zhou, Haizhu Zhou, Ruiyan Ma, Danyang Zhang,
- Abstract要約: LLMレイテンシは、ユーザエクスペリエンスと運用コストを極めて決定します。
我々は,最初のゼロ侵入型マルチプラットフォーム遅延推論システムPrismを提示する。
- 参考スコア(独自算出の注目度): 1.953898379944467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM inference latency critically determines user experience and operational costs, directly impacting throughput under SLO constraints. Even brief latency spikes degrade service quality despite acceptable average performance. However, distributed inference environments featuring diverse software frameworks and XPU architectures combined with dynamic workloads make latency analysis challenging. Constrained by intrusive designs that necessitate service restarts or even suspension, and by hardware-bound implementations that fail to adapt to heterogeneous inference environments, existing AI profiling methods are often inadequate for real-time production analysis. We present LatencyPrism, the first zero-intrusion multi-platform latency sculpting system. It aims to break down the inference latency across pipeline, proactively alert on inference latency anomalies, and guarantee adherence to SLOs, all without requiring code modifications or service restarts. LatencyPrism has been deployed across thousands of XPUs for over six months. It enables low-overhead real-time monitoring at batch level with alerts triggered in milliseconds. This approach distinguishes between workload-driven latency variations and anomalies indicating underlying issues with an F1-score of 0.98. We also conduct extensive experiments and investigations into root cause analysis to demonstrate LatencyPrism's capability.
- Abstract(参考訳): LLM推論レイテンシは、ユーザエクスペリエンスと運用コストをクリティカルに決定し、SLO制約下でのスループットに直接影響する。
短いレイテンシさえも、許容される平均パフォーマンスにもかかわらず、サービス品質を低下させる。
しかし、多様なソフトウェアフレームワークとXPUアーキテクチャと動的ワークロードを組み合わせた分散推論環境は、遅延解析を困難にしている。
サービスの再起動や停止を必要とする侵入的設計や、異種推論環境に適応できないハードウェアによる実装によって制限されるため、既存のAIプロファイリング手法は、しばしばリアルタイム生産分析では不十分である。
ゼロ侵入型マルチプラットフォーム彫刻システムであるLatencyPrismを提案する。
パイプライン間の推論レイテンシを分解し、推論レイテンシの異常を積極的に警告し、コード修正やサービス再起動を必要とせず、SLOへの準拠を保証することを目的としている。
LatencyPrismは6ヶ月以上、何千ものXPUにデプロイされている。
バッチレベルでの低オーバーヘッドリアルタイム監視を可能にする。
このアプローチは、ワークロード駆動のレイテンシの変動と、F1スコア0.98の根本的な問題を示す異常を区別する。
また,根本原因分析に関する広範な実験と調査を行い,LatencyPrismの能力を実証した。
関連論文リスト
- CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - Learning Unified System Representations for Microservice Tail Latency Prediction [8.532290784939967]
マイクロサービスアーキテクチャは、スケーラブルなクラウドネイティブアプリケーションを構築するためのデファクトスタンダードになっています。
従来のアプローチでは、要求毎のレイテンシメトリクスに依存しており、過渡的なノイズに非常に敏感です。
我々は,トラフィック側とリソース側の機能を明確に分離し,モデル化するディープラーニングネットワークであるUSRFNetを提案する。
論文 参考訳(メタデータ) (2025-08-03T07:46:23Z) - Towards Latency-Aware 3D Streaming Perception for Autonomous Driving [25.879279738510398]
本稿では,実行遅延を考慮したオンライン評価に適した新しいベンチマークを提案する。
ベンチマークに基づいて、レイテンシを意識した3Dストリーミングパーセプションフレームワークを構築します。
提案手法は,オフライン評価の80%と密に一致したオンライン性能を実現するため,様々な遅延レベルの一般化を示す。
論文 参考訳(メタデータ) (2025-04-27T05:49:52Z) - SlowFastVAD: Video Anomaly Detection via Integrating Simple Detector and RAG-Enhanced Vision-Language Model [52.47816604709358]
ビデオ異常検出(VAD)は、ビデオ内の予期せぬ事象を識別することを目的としており、安全クリティカルドメインに広く応用されている。
視覚言語モデル(VLM)は強力なマルチモーダル推論能力を示し、異常検出の新しい機会を提供している。
SlowFastVADは高速異常検出器と低速異常検出器を統合したハイブリッドフレームワークである。
論文 参考訳(メタデータ) (2025-04-14T15:30:03Z) - HyGen: Efficient LLM Serving via Elastic Online-Offline Request Co-location [6.727166537196941]
大規模言語モデル(LLM)は、異なるサービスレベルの目的(SLO)を持つ幅広いアプリケーションを容易にした。
既存のデプロイメントモデルは、各ワークロードにマシンを割り当て、SLO管理を単純化するが、リソース利用の低さにつながることが多い。
本稿では、オンラインおよびオフラインワークロードの効率的なコロケーションを可能にする干渉対応LLMサービスシステムであるHyGenを紹介する。
論文 参考訳(メタデータ) (2025-01-15T16:32:27Z) - Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection [56.66677293607114]
オープンセットのリアクティブかつアクティブな障害検出のためのCode-as-Monitor(CaM)を提案する。
モニタリングの精度と効率を高めるために,制約関連エンティティを抽象化する制約要素を導入する。
実験により、CaMは28.7%高い成功率を達成し、厳しい乱れの下で実行時間を31.8%短縮することが示された。
論文 参考訳(メタデータ) (2024-12-05T18:58:27Z) - RT-LM: Uncertainty-Aware Resource Management for Real-Time Inference of
Language Models [12.947537874888717]
言語の性質に固有の不確実性の結果として特定される様々な推論レイテンシは、計算の非効率性につながる。
実時間でのLM推定のための不確実性を考慮した資源管理エコシステムRT-LMを提案する。
RT-LMは,実行時のオーバーヘッドを小さく抑えながら,平均応答時間を大幅に削減し,スループットを向上させることができることを示す。
論文 参考訳(メタデータ) (2023-09-12T22:22:10Z) - Neural Laplace Control for Continuous-time Delayed Systems [76.81202657759222]
本稿では,ニューラルラプラス力学モデルとモデル予測制御(MPC)プランナを組み合わせた連続時間モデルに基づくオフラインRL法を提案する。
専門家の政策性能に近い連続的な遅延環境を実験的に示す。
論文 参考訳(メタデータ) (2023-02-24T12:40:28Z) - An Intelligent Deterministic Scheduling Method for Ultra-Low Latency
Communication in Edge Enabled Industrial Internet of Things [19.277349546331557]
時間知覚ネットワーク (TSN) は, 決定論的スケジューリングによる低遅延通信を実現するために最近研究されている。
非衝突理論に基づく決定論的スケジューリング (NDS) 法を提案し, 時間に敏感な流れに対する超低遅延通信を実現する。
実験の結果,NDS/DQSは決定論的超低レイテンシサービスを十分にサポートし,帯域幅の有効利用を保証できることがわかった。
論文 参考訳(メタデータ) (2022-07-17T16:52:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。