論文の概要: Scheduling LLM Inference with Uncertainty-Aware Output Length Predictions
- arxiv url: http://arxiv.org/abs/2604.00499v1
- Date: Wed, 01 Apr 2026 05:31:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.846177
- Title: Scheduling LLM Inference with Uncertainty-Aware Output Length Predictions
- Title(参考訳): 不確実性を考慮した出力長予測によるLLM推定のスケジューリング
- Authors: Haoyu Zheng, Yongqiang Zhang, Fangcheng Fu, Xiaokai Zhou, Hao Luo, Hongchao Zhu, Yuanyuan Zhu, Hao Wang, Xiao Yan, Jiawei Jiang,
- Abstract要約: 既存のメソッドは通常、スケジューリングを容易にするためにリクエスト毎に単一の出力長を予測する。
SJFスケジューリングにおける出力長の代替として,Tail Inflated expectation (TIE)を提案する。
TIEは、オンライン推論のために、トーケン毎のレイテンシを2.31ドル削減し、オフラインデータ生成のために、スループットを1.42ドル改善する。
- 参考スコア(独自算出の注目度): 16.877407702260243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To schedule LLM inference, the \textit{shortest job first} (SJF) principle is favorable by prioritizing requests with short output lengths to avoid head-of-line (HOL) blocking. Existing methods usually predict a single output length for each request to facilitate scheduling. We argue that such a \textit{point estimate} does not match the \textit{stochastic} decoding process of LLM inference, where output length is \textit{uncertain} by nature and determined by when the end-of-sequence (EOS) token is sampled. Hence, the output length of each request should be fitted with a distribution rather than a single value. With an in-depth analysis of empirical data and the stochastic decoding process, we observe that output length follows a heavy-tailed distribution and can be fitted with the log-t distribution. On this basis, we propose a simple metric called Tail Inflated Expectation (TIE) to replace the output length in SJF scheduling, which adjusts the expectation of a log-t distribution with its tail probabilities to account for the risk that a request generates long outputs. To evaluate our TIE scheduler, we compare it with three strong baselines, and the results show that TIE reduces the per-token latency by $2.31\times$ for online inference and improves throughput by $1.42\times$ for offline data generation.
- Abstract(参考訳): LLM推論をスケジュールするために、"textit{shortest job first} (SJF)"原則は、短い出力長でリクエストを優先順位付けすることで、ヘッド・オブ・ライン(HOL)ブロッキングを避けることで好ましい。
既存のメソッドは通常、スケジューリングを容易にするためにリクエスト毎に単一の出力長を予測する。
我々は、そのような \textit{point estimates} が LLM 推論の \textit{stochastic} 復号プロセスと一致しないと主張している。
したがって、各要求の出力長は単一の値ではなく分布に収まるべきである。
経験的データと確率的復号化プロセスの詳細な解析により,出力長が重み付き分布に追従し,対数t分布に適合できることが観察された。
そこで本研究では,SJFスケジューリングにおいて,要求が長時間のアウトプットを生成するリスクを考慮し,ログt分布の期待値をそのテール確率で調整する,TIE(Tail Inflated expectation)と呼ばれる単純なメトリックを提案する。
TIEスケジューラを3つの強力なベースラインと比較した結果,オンライン推論では2.31\times$,オフラインデータ生成では1.42\times$のスループット向上を実現した。
関連論文リスト
- Predicting LLM Output Length via Entropy-Guided Representations [13.351384070796747]
本稿では,本モデルの内部隠蔽状態を有効長予測のために再利用する軽量フレームワークを提案する。
1) オンザフライアクティベーションとトークンエントロピーを用いて高精度な静的予測を行うEGTP (Entropy-Guided Token Pooling) である。
論文 参考訳(メタデータ) (2026-02-12T10:49:04Z) - Catch Your Breath: Adaptive Computation for Self-Paced Sequence Production [55.76222360698305]
我々は,言語モデルが入力トークン毎に使用する計算ステップの数を動的かつ自律的に拡張できるような,教師付きトレーニング目標のクラスを探索する。
任意のトークンに対して、モデルは don't know> 出力を出力することで、追加の計算ステップを要求できる。
CYBモデルでは精度が向上し,トークンレベルの複雑性とコンテキストに処理時間を適用することができる。
論文 参考訳(メタデータ) (2025-10-13T21:07:05Z) - Rethinking Thinking Tokens: LLMs as Improvement Operators [80.12087211785949]
推論トレーニングは、LLMに長い思考の連鎖(長いCoT)を生み出す動機を与え、自己チェックによるソリューション戦略を探索することを可能にする。
これにより、精度が高くなりますが、コンテキストの長さ、トークン/計算コスト、応答レイテンシが膨らみます。
現在のモデルはメタ認知を活用して、このParetoフロンティアで他の組み合わせを提供できるのでしょうか?
i) 多様なドラフトを並列に生成し、(ii) それらを有界なテキストワークスペースに蒸留し、(iii) このワークスペース上に条件付き精製する。
論文 参考訳(メタデータ) (2025-10-01T17:08:59Z) - Adaptively Robust LLM Inference Optimization under Prediction Uncertainty [9.541681114575812]
本稿では,Large Language Model (LLM) 推論スケジューリングを最適化し,全遅延を最小化する問題について検討する。
LLM推論の鍵となる課題は、実行時の長さが分かる一方で、メモリ使用量や処理時間に重大な影響を及ぼす出力長が不明であることである。
本稿では,各要求に対して間隔分類(min-max range)を提供すると仮定して,機械学習を利用して出力長を予測するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-08-20T08:55:26Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - Beyond Next Token Probabilities: Learnable, Fast Detection of Hallucinations and Data Contamination on LLM Output Distributions [60.43398881149664]
LLM出力シグナチャの効率的な符号化を訓練した軽量アテンションベースアーキテクチャであるLOS-Netを紹介する。
非常に低い検出レイテンシを維持しながら、さまざまなベンチマークやLLMで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-18T09:04:37Z) - PecSched: Preemptive and Efficient Cluster Scheduling for LLM Inference [11.194752361478567]
既存のクラスタレベルのLLMスケジューリング戦略は主に2K以下のショートインプット要求をターゲットとしている。
プリエンプティブで効率的なクラスタレベルのLLM推論スケジューラであるPecSchedを提案する。
PecSchedは,99%の待ち行列遅延を最大92%削減し,スループットを最大595%向上することを示す。
論文 参考訳(メタデータ) (2024-09-23T15:16:29Z) - Efficient LLM Scheduling by Learning to Rank [19.33941579312897]
そこで本研究では,要求の集合における出力長の相対的なランクを,学習者によるランク付けによって予測可能であることを示す。
我々は,LLM推論のための新しいスケジューラを開発し,SJFスケジュールを既存手法よりも高速に近似する。
論文 参考訳(メタデータ) (2024-08-28T13:35:54Z) - CALF: Aligning LLMs for Time Series Forecasting via Cross-modal Fine-Tuning [59.88924847995279]
MTSFのためのクロスモーダルLCMファインチューニング(CALF)フレームワークを提案する。
分散の相違を低減するため,クロスモーダルマッチングモジュールを開発した。
CALFは、長期および短期の予測タスクの最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2024-03-12T04:04:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。