論文の概要: The Workload-Router-Pool Architecture for LLM Inference Optimization: A Vision Paper from the vLLM Semantic Router Project
- arxiv url: http://arxiv.org/abs/2603.21354v1
- Date: Sun, 22 Mar 2026 18:30:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.373948
- Title: The Workload-Router-Pool Architecture for LLM Inference Optimization: A Vision Paper from the vLLM Semantic Router Project
- Title(参考訳): LLM推論最適化のためのワークロードルータプールアーキテクチャ: vLLMセマンティックルータプロジェクトのビジョンペーパー
- Authors: Huamin Chen, Xunzhuo Liu, Bowei He, Fuyuan Lyu, Yankai Chen, Xue Liu, Yuhan Liu, Junchen Jiang,
- Abstract要約: vLLM Semantic Routerプロジェクトは、信号駆動ルーティング、コンテキスト長プールルーティング、ルータパフォーマンスエンジニアリング、ポリシー競合検出、低レイテンシ組み込みモデル、カテゴリ認識セマンティックキャッシング、ユーザフィードバック駆動ルーティング適応、幻覚検出、プライバシーとジェイルブレイク保護のための階層的コンテンツ安全分類を対象とする一連の作業をリリースした。
本稿では,LLM推論最適化のための3次元フレームワークであるWorkload-Pool-Poolアーキテクチャについて述べる。
- 参考スコア(独自算出の注目度): 30.96691028676722
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the past year, the vLLM Semantic Router project has released a series of work spanning: (1) core routing mechanisms -- signal-driven routing, context-length pool routing, router performance engineering, policy conflict detection, low-latency embedding models, category-aware semantic caching, user-feedback-driven routing adaptation, hallucination detection, and hierarchical content-safety classification for privacy and jailbreak protection; (2) fleet optimization -- fleet provisioning and energy-efficiency analysis; (3) agentic and multimodal routing -- multimodal agent routing, tool selection, CUA security, and multi-turn context memory and safety; (4) governance and standards -- inference routing protocols and multi-provider API extensions. Each paper tackled a specific problem in LLM inference, but the problems are not independent; for example, fleet provisioning depends on the routing policy, which depends on the workload mix, shifting as organizations adopt agentic and multimodal workloads. This paper distills those results into the Workload-Router-Pool (WRP) architecture, a three-dimensional framework for LLM inference optimization. Workload characterizes what the fleet serves (chat vs. agent, single-turn vs. multi-turn, warm vs. cold, prefill-heavy vs. decode-heavy). Router determines how each request is dispatched (static semantic rules, online bandit adaptation, RL-based model selection, quality-aware cascading). Pool defines where inference runs (homogeneous vs. heterogeneous GPU, disaggregated prefill/decode, KV-cache topology). We map our prior work onto a 3x3 WRP interaction matrix, identify which cells we have covered and which remain open, and propose twenty-one concrete research directions at the intersections, each grounded in our prior measurements, tiered by maturity from engineering-ready to open research.
- Abstract(参考訳): コアルーティング機構 -- 信号駆動ルーティング、コンテキスト長プールルーティング、ルータパフォーマンスエンジニアリング、ポリシコンフリクト検出、低レイテンシ組み込みモデル、カテゴリ認識セマンティックキャッシュ、ユーザフィードバック駆動ルーティング適応、幻覚的ルーティング検出、プライバシーとジェイルブレイク保護のための階層的コンテンツセーフティ分類、(2) 艦隊最適化 -- 艦隊のプロビジョニングとエネルギー効率分析、(3) エージェントおよびマルチモーダルルーティング -- マルチモーダルエージェントルーティング、ツール選択、CUAセキュリティ、マルチターンコンテキストメモリ、およびマルチターンAPI拡張。
例えば、フリートプロビジョニングは、作業負荷の混合に依存するルーティングポリシーに依存し、組織がエージェントおよびマルチモーダルワークロードを採用するにつれてシフトする。
本稿では,これらの結果を,LLM推論最適化のための3次元フレームワークであるWorkload-Router-Pool (WRP)アーキテクチャに精査する。
Workloadは、艦隊が提供しているもの(チャット対エージェント、シングルターン対マルチターン、ウォーム対コールド、プリフィル-ヘビー対デコード-ヘビー)を特徴付ける。
ルータは、各リクエストの送信方法を決定する(静的セマンティックルール、オンラインバンディット適応、RLベースのモデル選択、品質を意識したカスケード)。
Poolは、推論がどこで実行されるかを定義する(同種対異種GPU、非集約型プリフィル/デコード、KV-キャッシュトポロジー)。
我々は、これまでの研究成果を3x3 WRP相互作用マトリックスにマッピングし、どの細胞を被覆し、どの細胞を開いているかを識別し、それぞれが、工学的な完成度からオープンな研究までの成熟度を基準に、交差点における21の具体的な研究方向を提案する。
関連論文リスト
- Efficient and Interpretable Multi-Agent LLM Routing via Ant Colony Optimization [58.59491516762626]
マルチエージェントシステム(MAS)のための効率的かつ解釈可能なルーティングフレームワークAMRO-Sを提案する。
AMRO-Sは、意味条件付き経路選択問題としてMASルーティングをモデル化し、3つのキーメカニズムを通してルーティング性能を向上させる。
5つの公開ベンチマークと高速ストレステストによる大規模な実験により、AMRO-Sは強いルーティングベースラインに対する品質-コストトレードオフを一貫して改善することを示した。
論文 参考訳(メタデータ) (2026-03-13T12:26:05Z) - TCAndon-Router: Adaptive Reasoning Router for Multi-Agent Collaboration [0.9564467981235256]
マルチエージェントシステム(MAS)は、高性能なインテリジェントアプリケーションを構築するための強力なパラダイムとなっている。
これらのシステム内では、特定のクエリを処理する専門家エージェントを決定するルータが、全体的なパフォーマンスにおいて重要な役割を果たす。
これらの課題に対処するため,マルチエージェント協調のための適応推論ルータTCAndon-TCARを提案する。
公開データセットと実際のエンタープライズデータの実験は、TARがルーティングの正確性を大幅に改善し、ルーティングの競合を低減し、あいまいなシナリオで堅牢であることを示している。
論文 参考訳(メタデータ) (2026-01-08T03:17:33Z) - AgentRouter: A Knowledge-Graph-Guided LLM Router for Collaborative Multi-Agent Question Answering [51.07491603393163]
tAgentは知識グラフ誘導ルーティング問題としてマルチエージェントQAを定式化するフレームワークである。
エージェントアウトプットのソフトな監督と重み付けされた集約を活用することで、エージェントは多様なエージェントの相補的な強みを捉える、原則化された協調スキームを学ぶ。
論文 参考訳(メタデータ) (2025-10-06T23:20:49Z) - RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory [57.449129198822476]
RCRは、マルチエージェント大言語モデル(LLM)システムのためのロールアウェアコンテキストルーティングフレームワークである。
役割とタスクステージに基づいて、各エージェントに対して意味的に関連するメモリサブセットを動的に選択する。
軽量スコアリングポリシは、メモリ選択をガイドし、エージェント出力を共有メモリストアに統合する。
論文 参考訳(メタデータ) (2025-08-06T21:59:34Z) - RAGRouter: Learning to Route Queries to Multiple Retrieval-Augmented Language Models [45.58601993849455]
Retrieval-Augmented Generation (RAG) は、知識集約タスクにおけるLarge Language Models (LLM) の性能を大幅に向上させる。
既存のルーティング手法はRAGシナリオで最適以下の性能を示すのに対し,外部文書はLLMのクエリ応答能力に動的に影響を及ぼす。
本稿では、文書埋め込みとRAG機能埋め込みを利用して知識表現シフトを捉えるパラメトリックなRAG対応ルーティング設計であるRAGを提案する。
論文 参考訳(メタデータ) (2025-05-29T03:44:56Z) - Universal Model Routing for Efficient LLM Inference [69.86195589350264]
モデルルーティングは,大規模言語モデル(LLM)の推論コストを削減する手法である
動的ルーティング問題に対する新しいアプローチであるUniRouteを提案する。
これらは理論的に最適なルーティングルールの推定であり、過大なリスクバウンドによってそれらのエラーを定量化する。
論文 参考訳(メタデータ) (2025-02-12T20:30:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。