論文の概要: Token Management in Multi-Tenant AI Inference Platforms
- arxiv url: http://arxiv.org/abs/2603.00356v1
- Date: Fri, 27 Feb 2026 22:44:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.15461
- Title: Token Management in Multi-Tenant AI Inference Platforms
- Title(参考訳): マルチテナントAI推論プラットフォームにおけるトークン管理
- Authors: William J. Cunningham,
- Abstract要約: マルチテナントAI推論プラットフォームは、可変要求下でのサービスレベルの保証とリソース利用のバランスをとる必要がある。
推論ネイティブユニットで表現された明示的な権利としてキャパシティを表すコントロールプレーン抽象化であるEmphtoken poolsを導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-tenant AI inference platforms must balance resource utilization against service-level guarantees under variable demand. Conventional approaches fail to achieve this balance: dedicated endpoints strand capacity on idle models, while rate limits ignore the heterogeneous cost of inference requests. We introduce \emph{token pools}, a control-plane abstraction that represents inference capacity as explicit entitlements expressed in inference-native units (token throughput, KV cache, concurrency). Unlike rate limits, which govern request admission without regard to execution cost, token pools authorize both admission and autoscaling from the same capacity model, ensuring consistency between what is promised and what is provisioned. The abstraction captures burst modes across multiple dimensions invisible to conventional throttling. Dynamic per-entitlement limits on each burst dimension enable fine-grained control over resource consumption while permitting work-conserving backfill by low-priority traffic. The design supports priority-aware allocation, service tiers with differentiated guarantees, and debt-based fairness mechanisms, all without modifying the underlying inference runtime or cluster scheduler. In experiments on a Kubernetes cluster with vLLM backends, token pools maintain a bounded P99 latency for guaranteed workloads during overload by selectively throttling spot traffic, while a baseline without admission control experiences unbounded latency degradation across all workloads. A second experiment demonstrates debt-based fair-share convergence among elastic workloads with heterogeneous SLO requirements during capacity scarcity.
- Abstract(参考訳): マルチテナントAI推論プラットフォームは、可変要求下でのサービスレベルの保証とリソース利用のバランスをとる必要がある。
専用エンドポイントはアイドルモデルでストランド容量を制限し、レート制限は推論要求の不均一なコストを無視する。
推論能力を表すコントロールプレーン抽象化である 'emph{token pools} を,推論ネイティブユニット(トークンスループット,KVキャッシュ,並列性)で表される明示的な権利として導入する。
実行コストによらず要求の受け入れを管理するレート制限とは異なり、トークンプールは、同じキャパシティモデルからの受け入れと自動スケーリングの両方を許可し、約束されるものと提供されるものとの間の一貫性を確保する。
この抽象化は、従来のスロットリングとは見えない複数の次元にわたるバーストモードをキャプチャする。
各バースト次元における動的エンローメント制限は、低優先度トラフィックによる作業保存バックフィルを許容しながら、リソース消費のきめ細かい制御を可能にする。
設計では、優先度を意識したアロケーション、保証の異なるサービス層、負債ベースのフェアネスメカニズムがサポートされており、基盤となる推論ランタイムやクラスタスケジューラを変更する必要はない。
vLLMバックエンドを備えたKubernetesクラスタの実験では、トークンプールはスポットトラフィックを選択的に絞り込むことで、オーバーロード中の保証されたワークロードに対して、バウンドなP99レイテンシを維持している。
第2の実験では、キャパシティ不足時に不均一なSLO要件を持つ弾性ワークロード間の負債ベースのフェアシェア収束を実証した。
関連論文リスト
- FlowPrefill: Decoupling Preemption from Prefill Scheduling Granularity to Mitigate Head-of-Line Blocking in LLM Serving [13.856291757420012]
長期にわたる要求はリソースを独占し、より高いプライオリティの要求を遅らせ、TTFT(Time-to-first-token)サービスレベルの違反を広範囲に発生させる。
本稿では,TTFTに最適化されたサービスシステムであるFlowPrefillを提案する。
FlowPrefillは最先端システムと比較して最大出力を最大5.6$times$に改善することを示す。
論文 参考訳(メタデータ) (2026-02-18T16:57:45Z) - High-Fidelity Network Management for Federated AI-as-a-Service: Cross-Domain Orchestration [0.12234742322758417]
本稿では,Tail-Risk Envelopes(TRE)に基づく保証指向AI管理プレーンを提案する。
TREは、決定論的ガードレールとレート・レイテンシ・インペアメントモデルを組み合わせた、ドメインごとの構成可能な記述子に署名される。
テナントレベルの予約は,TRE契約下でのテール遅延の増大を防止する。
論文 参考訳(メタデータ) (2026-02-17T00:40:04Z) - HALO: Semantic-Aware Distributed LLM Inference in Lossy Edge Network [50.33808558714122]
エッジでの大規模言語モデル(LLM)推論は、ユーザのプライバシを保護すると同時に、サービスの応答性を促進する。
損失エッジネットワークにおける分散LLM推論を向上する新しいフレームワークであるHALOを提案する。
Raspberry Piクラスタによる実験の結果、HALOは信頼性の低いネットワーク条件下でLLaMAシリーズLLMの3.41倍のエンドツーエンドのスピードアップを達成した。
論文 参考訳(メタデータ) (2026-01-16T07:37:23Z) - RepetitionCurse: Measuring and Understanding Router Imbalance in Mixture-of-Experts LLMs under DoS Stress [16.010076395422264]
分配不能のプロンプトはルーティング戦略を操作でき、特定のデバイス上で計算ボトルネックを発生させ、他のデバイスにアイドルを強いる。
この脆弱性を悪用するための低コストなブラックボックス戦略であるRepetitionCurseを提案する。
論文 参考訳(メタデータ) (2025-12-30T05:24:26Z) - Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - Adaptive Neighborhood-Constrained Q Learning for Offline Reinforcement Learning [52.03884701766989]
オフライン強化学習(RL)アルゴリズムは、通常、アクション選択に制約を課す。
本稿では,Bellmanターゲットにおける行動選択を,データセットアクションの近傍の結合に制限する新しい地区制約を提案する。
我々は,この制約を満たす目標動作を用いてQ学習を行うための,単純で効果的なアルゴリズムであるAdaptive Neighborhood-Constrained Q Learning(ANQ)を開発した。
論文 参考訳(メタデータ) (2025-11-04T13:42:05Z) - FairBatching: Fairness-Aware Batch Formation for LLM Inference [2.0917668141703207]
この研究は、この不公平の根本原因を特定する:時-時-時-(TBT)の非単調性
本稿では,タスクの充足と復号のリソース割り当てを公平に行う新しいシステムであるFair the Prioritizingを提案する。
論文 参考訳(メタデータ) (2025-10-16T07:43:56Z) - Single Agent Robust Deep Reinforcement Learning for Bus Fleet Control [9.910562011343009]
バスの群れは交通と乗客の需要のために都市交通にとって困難である。
バス保持制御のための単エージェント強化学習フレームワークを提案する。
修正されたアクター・クリティは,ベンチマークよりも安定かつ優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2025-08-28T13:47:40Z) - Diffusion Predictive Control with Constraints [51.91057765703533]
拡散予測制御(Diffusion predictive control with constraints,DPCC)は、拡散に基づく制御のアルゴリズムである。
DPCCは,新しいテスト時間制約を満たすために,既存の手法よりも優れた性能を示すロボットマニピュレータのシミュレーションを通して示す。
論文 参考訳(メタデータ) (2024-12-12T15:10:22Z) - Compositional Diffusion-Based Continuous Constraint Solvers [98.1702285470628]
本稿では,ロボット推論と計画における連続的制約満足度問題(CCSP)の解法について紹介する。
対照的に、構成拡散連続制約解法(Diffusion-CCSP)は、CCSPに対する大域的な解を導出する。
論文 参考訳(メタデータ) (2023-09-02T15:20:36Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。