論文の概要: Lodestar: An Online-Learning LLM Inference Router
- arxiv url: http://arxiv.org/abs/2606.00946v1
- Date: Sun, 31 May 2026 01:31:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:28.993629
- Title: Lodestar: An Online-Learning LLM Inference Router
- Title(参考訳): Lodestar:オンライン学習型LLM推論ルータ
- Authors: Gangmuk Lim, Wanyu Zhao, Brighten Godfrey, Jiaxin Shan, Le Xu, Liguang Xie,
- Abstract要約: 大規模言語モデル(LLM)推論タスクは、ユーザの知覚するレイテンシに不可欠である。
Lodstarは、分散GPUクラスタのための新しい学習ベースの要求ルーティングシステムである。
Lodstarは平均1.41倍のTTFT、平均1.47倍のP99 TTFTを達成している。
- 参考スコア(独自算出の注目度): 6.819928135489163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficiently serving large language model (LLM) inference tasks is crucial both for user-perceived latency such as time-to-first-token (TTFT) and for GPU utilization. However, LLM request routing, that is, assigning each inference request to a GPU instance, is particularly challenging: execution is highly input-dependent; batching and KV-cache reuse create strong cross-request coupling; and latency responds nonlinearly to context length, model/engine settings, and heterogeneous accelerators. As a result, simple traditional load balancing algorithms, and even heuristics tailored for LLM inference, fail to achieve good performance. We present Lodestar, a novel learning-based request routing system for distributed GPU clusters. Lodestar continuously collects a snapshot of the cluster at per-request level, including real-time instance state, request characteristics, and observed performance, and trains an online reward predictor that it uses to route inference requests to the instance that will maximize given reward (e.g., minimizing TTFT). Lodestar is cloud-native and works seamlessly with existing serving stacks (vLLM). With continuous online adaptation to changing workloads and infrastructure conditions, Lodestar achieves 1.41x lower average TTFT and 1.47x lower P99 TTFT on average (up to 2.15x/1.86x on homogeneous and 4.38x/4.42x on heterogeneous clusters) compared to a state-of-the-art prefix cache and load-aware heuristic, and learns these efficient routing strategies within about 5 minutes, based on experiments in a public cloud GPU cluster.
- Abstract(参考訳): 大規模言語モデル(LLM)推論タスクを効率的に行うことは、TTFT(Time-to-first-token)のようなユーザ認識レイテンシーとGPU利用の両方に不可欠である。
実行は高いインプット依存であり、バッチ処理とKV-cacheの再利用は強力なクロスリクエスト結合を生み出し、レイテンシはコンテキスト長、モデル/エンジニアリング設定、異種アクセラレータに非線形に応答する。
その結果、従来のロードバランシングアルゴリズムやLLM推論に適したヒューリスティックさえも、優れた性能を達成できなかった。
分散GPUクラスタのための新しい学習ベースの要求ルーティングシステムであるLodestarを紹介する。
Lodestarは、リアルタイムインスタンス状態、要求特性、監視されたパフォーマンスを含む、要求単位のクラスタのスナップショットを継続的に収集し、与えられた報酬を最大化するインスタンスに推論要求をルーティングするために使用するオンライン報酬予測器(TTFTの最小化など)をトレーニングする。
Lodestarはクラウドネイティブで、既存のサービススタック(vLLM)とシームレスに動作する。
ワークロードやインフラストラクチャの条件への継続的なオンライン適応により、Lodestarは、最先端のプレフィックスキャッシュと負荷認識ヒューリスティックと比較して平均1.41倍、平均1.47倍、P99 TTFTを平均2.15x/1.86倍、異種クラスタでは4.38x/4.42倍)、これらの効率的なルーティング戦略をパブリッククラウドGPUクラスタの実験に基づいて5分以内に学習する。
関連論文リスト
- AdaFuse: Accelerating Dynamic Adapter Inference via Token-Level Pre-Gating and Fused Kernel Optimization [84.25316984309725]
動的スパース構造とパラメータ効率のよいアダプタ(例えばLoRA)の統合は、大規模言語モデル(LLM)を拡張するための強力な技術である。
計算負荷は最小限に抑えられるが、計算のレイテンシが急上昇し、復号速度が2.5倍以上遅くなる。
AdaFuseはアルゴリズムと基盤となるハードウェアシステムとの緊密な協調設計に基づいて構築されたフレームワークで、効率的な動的アダプタ実行を実現する。
論文 参考訳(メタデータ) (2026-03-12T12:46:42Z) - RollArt: Scaling Agentic RL Training via Disaggregated Infrastructure [49.88201789074532]
エージェント強化学習(RL)は、大規模言語モデル(LLM)が自律的な意思決定と長期計画を行うことを可能にする。
分散インフラストラクチャ上でマルチタスクエージェントRLのスループットを最大化する分散システムであるRollArcを提案する。
論文 参考訳(メタデータ) (2025-12-27T11:14:23Z) - Optimal Scheduling Algorithms for LLM Inference: Theory and Practice [6.043830060363904]
本稿では,大規模言語モデル推論システムにおけるルーティングとスケジューリングをモデル化する理論的枠組みを開発する。
スループット向上に不可欠な設計原則として,最適化タイリングと動的リソース割り当ての2つがあげられる。
本稿では,リソース・アウェア・ダイナミック(RAD)スケジューラが軽度条件下でスループットの最適化を実現することを示す。
論文 参考訳(メタデータ) (2025-08-01T18:12:21Z) - How to Train Your LLM Web Agent: A Statistical Diagnosis [96.86317871461834]
LLMウェブエージェントのポストトレーニングにおける計算割当に関する統計学的基礎研究について述べる。
提案手法では,Llama 3.1 8Bの学生を対象に,教師付き微調整(SFT)とオンライン強化学習を用いて,Llama 3.3 70Bの教師を模倣する2段階のパイプラインを用いた。
以上の結果から,SFTとオンラインRLの組み合わせは,WorkArenaとMiniWob++のいずれにおいても,単独でのアプローチよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-07-05T17:12:33Z) - PentaRAG: Large-Scale Intelligent Knowledge Retrieval for Enterprise LLM Applications [5.4838799162708245]
我々はPentaRAGを紹介した。PentaRAGは5層モジュールで、各クエリを2つのインスタントキャッシュにルーティングする。
我々はPentaRAGがクエリ毎の平均GPU時間を0.248秒に削減したことを示す。
その結果、階層型ルーティング戦略は生産レベルのRAGシステムにおいて、鮮度、速度、効率性を同時に提供できることが示されている。
論文 参考訳(メタデータ) (2025-06-18T07:54:53Z) - KunServe: Parameter-centric Memory Management for Efficient Memory Overloading Handling in LLM Serving [5.090882129969119]
本稿では、複製されたパラメータを即座にフリーな要求メモリに選択的にドロップすることで、スロットリングを扱うための最初のパラメータ中心のアプローチを提案する。
Llumnix, vLLM, InferCept などの最先端システムと比較して,sys はスロットリング中のリクエストのテールTTFTを最大72.2倍削減することを示す。
論文 参考訳(メタデータ) (2024-12-24T05:07:46Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。