論文の概要: Token-Budget-Aware Pool Routing for Cost-Efficient LLM Inference
- arxiv url: http://arxiv.org/abs/2604.09613v2
- Date: Tue, 14 Apr 2026 18:06:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.556152
- Title: Token-Budget-Aware Pool Routing for Cost-Efficient LLM Inference
- Title(参考訳): コスト効率の良いLCM推論のためのトークンバッジ対応プールルーティング
- Authors: Huamin Chen, Xunzhuo Liu, Junchen Jiang, Bowei He, Xue Liu,
- Abstract要約: プロダクションvLLMフリートは、最悪の状況ですべてのインスタンスをプロビジョニングする。
プロダクションvLLMプールは2つのvLLMプールのうちの1つにそれをディスパッチする。
トークン予算ルーティングはGPUインスタンスを17~39%削減する。
- 参考スコア(独自算出の注目度): 12.135271159221178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Production vLLM fleets provision every instance for worst-case context length, wasting 4-8x concurrency on the 80-95% of requests that are short and simultaneously triggering KV-cache failures -- OOM crashes, preemption storms, and request rejections. Both problems share a single root cause: configuration-traffic mismatch. We propose token-budget-aware pool routing: estimate each request's total token budget using a self-calibrating per-category bytes-per-token ratio, then dispatch it to one of two vLLM pools -- a high-throughput short pool or a high-capacity long pool -- each right-sized for its workload class. The ratio is learned online via exponential moving average from usage.prompt_tokens feedback, requiring no tokenizer. A closed-form cost model, savings = alpha * (1 - 1/rho), predicts fleet-level GPU savings from two observable quantities: the short-traffic fraction alpha and the throughput gain ratio rho. On traces from the Azure LLM Inference Dataset and LMSYS-Chat-1M serving Llama-3-70B on A100 GPUs, token-budget routing reduces GPU instances by 17-39% (\$1.2-2.0M/yr at 1,000 req/s), with savings verified by a self-contained discrete-event simulator. A case study projecting Qwen3-235B-A22B on AMD MI300X at 10,000 req/s shows \$15.4M/yr in savings. The algorithm adds O(1) dispatch overhead, self-calibrates across content types without a tokenizer, and composes with PagedAttention, continuous batching, and prefill-decode disaggregation.
- Abstract(参考訳): 運用vLLMフリートは、すべてのインスタンスを最悪の状況の長さでプロビジョニングし、80~95%のリクエストに対して4~8倍の並行処理を無駄にし、KVキャッシュ障害を同時に発生させる -- OOMクラッシュ、プリエンプション嵐、リクエスト拒否。
どちらの問題も1つの根本原因を共有している。
我々は,各要求の総トークン予算を,カテゴリごとのバイト単位の自己校正比を用いて推定し,それを2つのvLLMプール – 高スループットのショートプールと高容量のロングプール – のいずれか – にディスパッチする。
この比率は、利用率.prompt_tokensフィードバックから指数的な移動平均を通じてオンラインで学習され、トークン化を必要としない。
クローズドフォームのコストモデルであるsaves = alpha * (1 - 1/rho) は、2つの観測可能な量からフリートレベルのGPUの節約を予測する。
A100 GPU上でLlama-3-70Bを提供するAzure LLM推論データセットとLMSYS-Chat-1Mのトレースに基づいて、トークンバッジルーティングはGPUインスタンスを17~39%削減する(1000 req/sで1.2~2.0M/yr)。
AMD MI300Xに1万 req/sでQwen3-235B-A22Bを投影したケーススタディでは、貯蓄が15.4M/yrである。
このアルゴリズムは、O(1)ディスパッチのオーバーヘッド、トークンを使わずにコンテントタイプを自己校正し、PagedAttention、連続バッチ、プリフィル・デコード・デアグリゲーションで構成する。
関連論文リスト
- AdaSplash-2: Faster Differentiable Sparse Attention [14.338708749838881]
AdaSplash-2を導入し、$を1--2に計算するのに必要なイテレーション数を削減します。
AdaSplash-2はブロック間隔が適度に高い場合、FlashAttention-2と比較してステップごとのトレーニング時間を一致または改善する。
ダウンストリームタスクでは、効率的な$-entmaxアテンションでトレーニングされたモデルは、短いコンテキスト長でソフトマックスベースラインと一致し、長いコンテキスト設定で大幅に向上する。
論文 参考訳(メタデータ) (2026-04-16T16:03:13Z) - Dual-Pool Token-Budget Routing for Cost-Efficient and Reliable LLM Serving [9.457255218406333]
プロダクションvLLMフリートは通常、最悪のコンテキスト長に対して各インスタンスをプロビジョニングする。
実際には、80-95%のリクエストは短いが、長いコンテキストに最適化された設定の下で提供される。
本稿では,同種艦隊を2つの専用プールに分割する軽量ディスパッチ機構であるデュアルプールトークン予算ルーティングを提案する。
論文 参考訳(メタデータ) (2026-04-09T10:47:20Z) - 98$\times$ Faster LLM Routing Without a Dedicated GPU: Flash Attention, Prompt Compression, and Near-Streaming for the vLLM Semantic Router [9.457255218406333]
本稿では,vLLMセマンティックルータの3つの段階最適化について述べる。
ROCm上のONNX用のカスタムFlashアテンション演算子は、注目メモリを$O(n2)$から$O(n)$に還元する。
適応的チャンキングによるニアストリームボディ処理はシリアライズオーバーヘッドをなくす。
論文 参考訳(メタデータ) (2026-03-13T04:33:53Z) - Out of the Memory Barrier: A Highly Memory Efficient Training System for LLMs with Million-Token Contexts [68.79341332280062]
長いコンテキストでの大規模言語モデル(LLM)のトレーニングは、トレーニング時間ではなく、GPUメモリの異常なオーバーヘッドによって厳しく制限される。
この障壁に直面するメモリ効率の高いトレーニングシステムOOMBを紹介します。
本手法では,オンザフライアクティベーション・リコンピュテーションを備えたチャンク・リカレント・トレーニング・フレームワークを用いて,一定のアクティベーションメモリフットプリントを維持する。
論文 参考訳(メタデータ) (2026-02-02T13:52:40Z) - Pipeline Parallelism is All You Need for Optimized Early-Exit Based Self-Speculative Decoding [73.67253077506672]
大規模言語モデル(LLM)は、優れた生成品質を提供するが、非常に高い推論コストをもたらす。
早期排他的自己投機的復号法(EESD)がこのコストを軽減するために登場した。
ドラフトと検証作業を完全にパイプライン化するパイプライン・パラレル自己スペクティブ・デコーディング(PPSD)を提案する。
論文 参考訳(メタデータ) (2025-09-19T04:51:41Z) - ILRe: Intermediate Layer Retrieval for Context Compression in Causal Language Models [4.951427498576812]
ILRe(Intermediate Layer Retrieval)と呼ばれる新しいコンテキスト圧縮パイプラインを導入する。
ILReは、チャンクされたプリフィルをその層にだけストリーミングすることでコンテキストをエンコードし、入力クエリと指定された層のフルキーキャッシュの間のアテンションスコアによってトークンをリコールする。
追加のポストトレーニングやオペレータ開発がなければ、ILReは100万ドルのトークン要求を30分以内で処理できる。
論文 参考訳(メタデータ) (2025-08-25T10:59:02Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - AdaPool: Exponential Adaptive Pooling for Information-Retaining
Downsampling [82.08631594071656]
畳み込み層は畳み込みニューラルネットワーク(CNN)の重要な構成要素である
適応的で指数関数的に重み付けされたアダプール法を提案する。
adaPoolは画像やビデオの分類やオブジェクト検出など,さまざまなタスクを通じて,ディテールの保存性の向上を実証する。
論文 参考訳(メタデータ) (2021-11-01T08:50:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。