論文の概要: ML Inference Scheduling with Predictable Latency
- arxiv url: http://arxiv.org/abs/2512.18725v2
- Date: Wed, 24 Dec 2025 04:31:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 13:34:31.93746
- Title: ML Inference Scheduling with Predictable Latency
- Title(参考訳): 予測可能なレイテンシによるML推論スケジューリング
- Authors: Haidong Zhao, Nikolaos Georgantas,
- Abstract要約: 既存の干渉予測手法の潜在的な限界を評価する。
粗粒度法は予測精度に顕著なずれを生じさせ,静的モデルがワークロード変更時に著しく劣化することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning (ML) inference serving systems can schedule requests to improve GPU utilization and to meet service level objectives (SLOs) or deadlines. However, improving GPU utilization may compromise latency-sensitive scheduling, as concurrent tasks contend for GPU resources and thereby introduce interference. Given that interference effects introduce unpredictability in scheduling, neglecting them may compromise SLO or deadline satisfaction. Nevertheless, existing interference prediction approaches remain limited in several respects, which may restrict their usefulness for scheduling. First, they are often coarse-grained, which ignores runtime co-location dynamics and thus restricts their accuracy in interference prediction. Second, they tend to use a static prediction model, which may not effectively cope with different workload characteristics. In this paper, we evaluate the potential limitations of existing interference prediction approaches, finding that coarse-grained methods can lead to noticeable deviations in prediction accuracy and that static models degrade considerably under changing workloads.
- Abstract(参考訳): 機械学習(ML)推論サービスシステムは、要求をスケジュールしてGPU使用率を改善し、サービスレベル目標(SLO)や期限を満たすことができる。
しかし、GPU使用率の改善は、並列タスクがGPUリソースと競合するため、レイテンシに敏感なスケジューリングを損なう可能性がある。
干渉効果がスケジューリングにおいて予測不可能をもたらすことを考慮すれば、それらを無視することはSLOや期限満足度を損なう可能性がある。
それでも、既存の干渉予測アプローチはいくつかの点で限定的であり、スケジューリングの有用性を制限する可能性がある。
第一に、それらはしばしば粗粒であり、実行時のコロケーションのダイナミクスを無視し、干渉予測の精度を制限する。
第二に、静的な予測モデルを使う傾向があり、これは異なるワークロード特性に効果的に対処しない可能性がある。
本稿では、既存の干渉予測手法の潜在的な限界を評価し、粗粒度法が予測精度に顕著なずれを生じさせ、静的モデルがワークロード変更時に著しく劣化することを発見した。
関連論文リスト
- Adaptively Robust LLM Inference Optimization under Prediction Uncertainty [9.541681114575812]
本稿では,Large Language Model (LLM) 推論スケジューリングを最適化し,全遅延を最小化する問題について検討する。
LLM推論の鍵となる課題は、実行時の長さが分かる一方で、メモリ使用量や処理時間に重大な影響を及ぼす出力長が不明であることである。
本稿では,各要求に対して間隔分類(min-max range)を提供すると仮定して,機械学習を利用して出力長を予測するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-08-20T08:55:26Z) - CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - The Larger the Merrier? Efficient Large AI Model Inference in Wireless Edge Networks [56.37880529653111]
大規模計算モデル(LAIM)サービスの需要は、従来のクラウドベースの推論から、低レイテンシでプライバシ保護のアプリケーションのためのエッジベースの推論へのパラダイムシフトを推進している。
本稿では,事前学習したLAIMをデバイス上のサブモデルとサーバ上のサブモデルに分割して配置するLAIM推論方式について検討する。
論文 参考訳(メタデータ) (2025-05-14T08:18:55Z) - Network-Aware Scheduling for Remote Gate Execution in Quantum Data Centers [8.528068737844364]
我々は,2つの絡み合いスケジューリング戦略を静的かつ動的に評価し,その性能を解析する。
動的スケジューリングは、高い絡み合いの並列性を持つシナリオにおいて、静的スケジューリングよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-04-28T18:22:22Z) - Interference-Aware Edge Runtime Prediction with Conformal Matrix Completion [10.776912158818437]
正確なワークロードランタイムの推定は、コンピュータシステムにおける長年の目標である。
本研究では,厳密な保証付き不確実性境界を持つ干渉認識予測を高精度に生成する行列分解法を開発した。
当社のメソッドは、24のユニークなデバイスから収集された新しいWebAssemblyランタイムデータセット上で検証され、予測エラーが5.2% -- 2倍向上した。
論文 参考訳(メタデータ) (2025-03-09T03:41:32Z) - Error-quantified Conformal Inference for Time Series [55.11926160774831]
時系列予測の不確かさの定量化は、時系列データの時間的依存と分布シフトのために困難である。
量子化損失関数をスムースにすることで,iError-quantified Conformal Inference (ECI)を提案する。
ECIは有効な誤発見制御と、他のベースラインよりも厳密な予測セットを出力することができる。
論文 参考訳(メタデータ) (2025-02-02T15:02:36Z) - Loss Shaping Constraints for Long-Term Time Series Forecasting [79.3533114027664]
本稿では,長期時系列予測のための制約付き学習手法を提案する。
提案手法は, 予測ウィンドウ上でエラーを発生させながら, 時系列ベンチマークにおける競合平均性能を示すことを示すための, 実用的なプリマル・デュアルアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:20:44Z) - Uncovering the Missing Pattern: Unified Framework Towards Trajectory
Imputation and Prediction [60.60223171143206]
軌道予測は、観測されたシーケンスから実体運動や人間の行動を理解する上で重要な作業である。
現在の方法では、観測されたシーケンスが完了したと仮定し、欠落した値の可能性を無視する。
本稿では,グラフに基づく条件変動リカレントニューラルネットワーク (GC-VRNN) の統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-28T14:27:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。