Fugu-MT 論文翻訳(概要): Dual-Pool Token-Budget Routing for Cost-Efficient and Reliable LLM Serving

論文の概要: Dual-Pool Token-Budget Routing for Cost-Efficient and Reliable LLM Serving

arxiv url: http://arxiv.org/abs/2604.08075v1
Date: Thu, 09 Apr 2026 10:47:20 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-10 18:34:05.868119
Title: Dual-Pool Token-Budget Routing for Cost-Efficient and Reliable LLM Serving
Title（参考訳）: 低コストで信頼性の高いLDMジョブのためのデュアルプールトークン予算ルーティング
Authors: Xunzhuo Liu, Bowei He, Xue Liu, Andy Luo, Haichen Zhang, Huamin Chen,
Abstract要約: プロダクションvLLMフリートは通常、最悪のコンテキスト長に対して各インスタンスをプロビジョニングする。実際には、80-95%のリクエストは短いが、長いコンテキストに最適化された設定の下で提供される。本稿では,同種艦隊を2つの専用プールに分割する軽量ディスパッチ機構であるデュアルプールトークン予算ルーティングを提案する。
参考スコア（独自算出の注目度）: 9.457255218406333
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Production vLLM fleets typically provision each instance for the worst-case context length, leading to substantial KV-cache over-allocation and under-utilized concurrency. In practice, 80-95% of requests are short, yet are served under configurations optimized for long contexts, wasting 4-8$\times$ throughput capacity and triggering reliability issues such as OOM crashes, preemption, and request rejections. We identify a common root cause for these inefficiencies: configuration-traffic mismatch. We propose dual-pool token-budget routing, a lightweight dispatch mechanism that partitions a homogeneous fleet into two specialized pools: a high-throughput short-context pool and a high-capacity long-context pool. Each request is routed based on its estimated total token budget, computed using a per-category bytes-to-token ratio that is learned online via exponential moving average from usage.prompt_tokens feedback, eliminating the need for a tokenizer. We also develop a simple analytical model that predicts fleet-level cost savings from workload characteristics and measured throughput differences, enabling practitioners to estimate benefits prior to deployment. Evaluations on real-world traces from the Azure LLM Inference Dataset and LMSYS-Chat-1M, serving Llama-3-70B on A100 GPUs, show that our approach reduces GPU-hours by 31-42%, corresponding to \$2.86M annual savings at fleet scale, while lowering preemption rates by 5.4$\times$ and improving P99 TTFT by 6%. A case study with Qwen3-235B-A22B on AMD MI300X at 10,000 req/s projects \$15.4M in annual savings. The method incurs only O(1) dispatch overhead, adapts automatically to heterogeneous workloads, and composes seamlessly with existing optimizations such as PagedAttention, continuous batching, and prefill-decode disaggregation.
Abstract（参考訳）: プロダクションvLLMは、通常、各インスタンスを最悪のケースのコンテキスト長に設定し、かなりのKVキャッシュのオーバーアロケーションと未使用の並行処理に繋がる。実際には、80-95%のリクエストは短いが、長いコンテキストに最適化された設定の下で提供され、4-8$\times$スループットのキャパシティを浪費し、OOMクラッシュ、プリエンプション、リクエスト拒否といった信頼性の問題を引き起こす。我々はこれらの非効率性の共通の根本原因を同定する。本稿では,同種艦隊を2つの特殊なプール(高スループット短コンテキストプールと高容量長コンテキストプール)に分割する軽量ディスパッチ機構であるデュアルプールトークン予算ルーティングを提案する。各要求は、その推定総トークン予算に基づいてルーティングされ、カテゴリごとのバイト・ツー・トークン比を使用して計算され、使用量から指数的な移動平均によってオンラインで学習される。また、ワークロード特性とスループットの差から、フリートレベルのコスト削減を予測し、実践者がデプロイメント前にメリットを見積もることができるような、シンプルな分析モデルも開発しています。 A100 GPU上でLlama-3-70Bを提供するAzure LLM Inference DatasetとLMSYS-Chat-1Mから得られた実世界のトレースの評価によると、当社のアプローチは、艦隊規模での年間2.86Mの節約に対応するGPU時間を31-42%削減し、プリエンプションレートを5.4$\times$に下げ、P99 TTFTを6%改善した。 a case study with Qwen3-235B-A22B on AMD MI300X at 10,000 req/s project $15.4M in annual savings。このメソッドはO(1)ディスパッチのオーバーヘッドのみを発生させ、自動的に異種ワークロードに適応し、PagedAttentionや継続的バッチ、プリフィル・デコード・デアグリゲーションといった既存の最適化とシームレスに構成する。

関連論文リスト

A1: A Fully Transparent Open-Source, Adaptive and Efficient Truncated Vision-Language-Action Model [112.9420001646428]
VLA(Vision-Language-Action)モデルは、オープンワールドロボット操作の強力なパラダイムとして登場したが、実際の展開はコストに制約されることが多い。我々は、低コストで高スループットな推論のために設計された、完全にオープンソースで透明なVLAフレームワークであるA1を提示する。 A1は最先端の成功率を達成すると同時に、推論コストを大幅に削減する。
論文参考訳（メタデータ） (2026-04-07T10:18:40Z)
Robust Batch-Level Query Routing for Large Language Models under Cost and Capacity Constraints [18.52522897906341]
大規模言語モデル(LLM)へのクエリルーティングの問題について検討する。本稿では,各バッチの割り当てを協調的に最適化する,バッチレベルのリソース対応ルーティングフレームワークを提案する。 2つのマルチタスクベンチマークの実験では、非ロバストなベンチマークでは精度が1-14%向上している。
論文参考訳（メタデータ） (2026-03-25T22:24:11Z)
Fast Forward: Accelerating LLM Prefill with Predictive FFN Sparsity [5.223181756178433]
我々は,大規模言語モデル (LLM) のプレフィルをブロックワイドでコンテキスト対応のFFNスパシティによって高速化する,予測可能なスパシティフレームワークであるFastForwardを紹介した。 FastForwardは最大1.45$times$計算バウンド・スピードアップを50%FFN間隔で提供し、LongBenchの高密度ベースラインに比べて6%の精度で損失する。
論文参考訳（メタデータ） (2026-01-30T23:23:40Z)
Randomization Boosts KV Caching, Learning Balances Query Load: A Joint Perspective [31.67506313325633]
KVキャッシュは、キー値(KV)ペアを以前のクエリから再利用することで、Large Language Model(LLM)推論を高速化する技術である。デフォルトのLeast recently Used (LRU)消去アルゴリズムは、動的オンラインクエリの到着に苦労する。我々は、KVキャッシュ消去とクエリルーティングのコアトレードオフをキャプチャする最初の統一数学的モデルを与える。
論文参考訳（メタデータ） (2026-01-26T22:20:59Z)
ILRe: Intermediate Layer Retrieval for Context Compression in Causal Language Models [4.951427498576812]
ILRe(Intermediate Layer Retrieval)と呼ばれる新しいコンテキスト圧縮パイプラインを導入する。 ILReは、チャンクされたプリフィルをその層にだけストリーミングすることでコンテキストをエンコードし、入力クエリと指定された層のフルキーキャッシュの間のアテンションスコアによってトークンをリコールする。追加のポストトレーニングやオペレータ開発がなければ、ILReは100万ドルのトークン要求を30分以内で処理できる。
論文参考訳（メタデータ） (2025-08-25T10:59:02Z)
Cost-Aware Contrastive Routing for LLMs [57.30288453580456]
我々は、プロンプトとモデルの両方を共有埋め込み空間にマッピングする軽量フレームワークであるコストスペクトルコントラストルーティング(CSCR)を紹介します。 CSCRはベースラインを一貫して上回り、精度とコストのトレードオフを最大25%改善した。
論文参考訳（メタデータ） (2025-08-17T20:16:44Z)
Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。 A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。 PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文参考訳（メタデータ） (2025-05-27T03:58:50Z)
HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文参考訳（メタデータ） (2024-02-14T18:04:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。