論文の概要: Duration Aware Scheduling for ASR Serving Under Workload Drift
- arxiv url: http://arxiv.org/abs/2603.11273v1
- Date: Wed, 11 Mar 2026 20:06:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.619931
- Title: Duration Aware Scheduling for ASR Serving Under Workload Drift
- Title(参考訳): ワークロードドリフト下でのASR実行の時間的アウェアスケジューリング
- Authors: Darshan Makwana, Yash Jogi, Harsh Kotta, Aayush Kubba,
- Abstract要約: 本稿では,Whisper などの ASR モデルにおいて,音声長がジョブ処理時間の正確なプロキシであることを示す。
我々は2つの古典的アルゴリズム、SJF(Shortest Job First)とHRRN(Highest Response Ratio Next)を統合する。
HRRNは、このトレードオフに対処する: 中央値のE2Eレイテンシを最大28%まで下げると同時に、テールレイテンシの劣化を24%以上に制限する。
- 参考スコア(独自算出の注目度): 1.371949194229761
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scheduling policies in large-scale Automatic Speech Recognition (ASR) serving pipelines play a key role in determining end-to-end (E2E) latency. Yet, widely used serving engines rely on first-come-first-served (FCFS) scheduling, which ignores variability in request duration and leads to head-of-line blocking under workload drift. We show that audio duration is an accurate proxy for job processing time in ASR models such as Whisper, and use this insight to enable duration-aware scheduling. We integrate two classical algorithms, Shortest Job First (SJF) and Highest Response Ratio Next (HRRN), into vLLM and evaluate them under realistic and drifted workloads. On LibriSpeech test-clean, compared to baseline, SJF reduces median E2E latency by up to $73\%$ at high load, but increases $90$th-percentile tail latency by up to $97\%$ due to starvation of long requests. HRRN addresses this trade-off: it reduces median E2E latency by up to $28\%$ while bounding tail-latency degradation to at most $24\%$. These gains persist under workload drift, with no throughput penalty and $<0.1$\,ms scheduling overhead per request.
- Abstract(参考訳): 大規模自動音声認識(ASR)サービスパイプラインのスケジューリングポリシは、エンドツーエンド(E2E)レイテンシを決定する上で重要な役割を果たす。
しかし、広く使われているサービスエンジンは、要求期間の変動を無視し、ワークロードのドリフトの下でラインのヘッド・オブ・ラインをブロックするFCFS(First-come-first-served)スケジューリングに依存している。
本稿では,Whisper などの ASR モデルにおいて,音声の時間長がジョブ処理時間の正確なプロキシであることを示す。
我々は2つの古典的アルゴリズム、SJF(Shortest Job First)とHRRN(Highest Response Ratio Next)をvLLMに統合し、それらを現実的でドリフトしたワークロードで評価する。
LibriSpeechテストクリーンでは、ベースラインと比較して、SJFは中央値のE2Eレイテンシをハイロード時に最大7,3\%まで削減するが、ロングリクエストの飢餓により90$thのテールレイテンシを最大9,7\%まで向上させる。
HRRNは、このトレードオフに対処する: 中央値のE2Eレイテンシを最大28 %$に下げると同時に、テールレイテンシの劣化を最大24 %$に制限する。
これらのゲインは、スループットペナルティがなく、リクエスト毎のオーバーヘッドを$<0.1$\,msでスケジューリングする。
関連論文リスト
- FlowPrefill: Decoupling Preemption from Prefill Scheduling Granularity to Mitigate Head-of-Line Blocking in LLM Serving [13.856291757420012]
長期にわたる要求はリソースを独占し、より高いプライオリティの要求を遅らせ、TTFT(Time-to-first-token)サービスレベルの違反を広範囲に発生させる。
本稿では,TTFTに最適化されたサービスシステムであるFlowPrefillを提案する。
FlowPrefillは最先端システムと比較して最大出力を最大5.6$times$に改善することを示す。
論文 参考訳(メタデータ) (2026-02-18T16:57:45Z) - Network-Optimised Spiking Neural Network (NOS) Scheduling for 6G O-RAN: Spectral Margin and Delay-Tail Control [7.382006859754025]
本研究は,ネットワーク最適化スパイキング(NOS)による6G無線アクセスのための遅延対応スケジューラを提案する。
小信号解析は遅延依存しきい値$k_star(Delta)$とスペクトルマージン$delta = k_star(Delta) - gHrho(W)$を生成し、トポロジ、コントローラゲイン、遅延を1つの設計パラメータに圧縮する。
論文 参考訳(メタデータ) (2025-10-13T11:28:28Z) - Intra-request branch orchestration for efficient LLM reasoning [52.68946975865865]
大規模言語モデル(LLM)は、複雑なタスクの正確性を改善するために、推論時推論アルゴリズムにますます依存している。
それまでの作業は、トークンの使用を減らすことを中心に、多くの場合、正確さを犠牲にしつつ、他のレイテンシ要因を見越すことに重点を置いていた。
本稿では,LLMサービスシステムであるDUCHESSについて,予測によって導かれるリクエスト内ブランチオーケストレーションにより,精度を犠牲にすることなく,コストとレイテンシを低減できるシステムを提案する。
論文 参考訳(メタデータ) (2025-09-29T15:52:08Z) - Real-Time Execution of Action Chunking Flow Policies [49.1574468325115]
本稿では,アクションインタラクションシステムの非同期実行を可能にする新しい推論時アルゴリズムを提案する。
これは、再トレーニングなしでボックスから実行する拡散またはVLAベースのシステムに適用できる。
その結果、RTCは高速で、性能が高く、推論操作に対して一意に堅牢であることがわかった。
論文 参考訳(メタデータ) (2025-06-09T01:01:59Z) - Priority-Aware Preemptive Scheduling for Mixed-Priority Workloads in MoE Inference [4.7730970530715835]
大規模言語モデルは自然言語処理に革命をもたらしたが、データセンターで効率的に処理するのは難しい。
我々は、Mixture of Experts(MoE)モデル用に設計された新しい推論システムQLLMを紹介する。
QLLMはエキスパートレベルのプリエンプションを可能にし、LS Time-to-First-Token(TTFT)を最小化しながらBEジョブの実行を遅延させる。
論文 参考訳(メタデータ) (2025-03-12T11:56:01Z) - ConServe: Fine-Grained GPU Harvesting for LLM Online and Offline Co-Serving [61.35068981176018]
ConServeは、高いスループットと強力なオンラインレイテンシ保証を実現する大規模言語モデル(LLM)サービスシステムである。
我々は,ConServeが平均2.2$times$高スループットを実現し,オンラインサービステールのレイテンシを最先端システムと比較して平均2.9$times$削減することを示した。
論文 参考訳(メタデータ) (2024-10-02T04:12:13Z) - DASA: Delay-Adaptive Multi-Agent Stochastic Approximation [64.32538247395627]
我々は,N$エージェントが並列に動作し,中央サーバと通信することで,一般的な近似問題を高速化することを目的とした設定を考える。
遅延とストラグラーの効果を軽減するために,マルチエージェント近似のための遅延適応アルゴリズムである textttDASA を提案する。
論文 参考訳(メタデータ) (2024-03-25T22:49:56Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - Efficient NLP Inference at the Edge via Elastic Pipelining [0.42970700836450487]
WRXは2つの新しい手法によってレイテンシ/メモリの緊張を緩和する。
We build WRX and evaluation that on a range of NLP tasks, under a practical range of target latencies, on both CPU and GPU。
論文 参考訳(メタデータ) (2022-07-11T17:15:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。