論文の概要: vLLM Semantic Router: Signal Driven Decision Routing for Mixture-of-Modality Models
- arxiv url: http://arxiv.org/abs/2603.04444v1
- Date: Mon, 23 Feb 2026 15:00:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.220169
- Title: vLLM Semantic Router: Signal Driven Decision Routing for Mixture-of-Modality Models
- Title(参考訳): vLLMセマンティックルータ:混合モードモデルのための信号駆動決定ルーティング
- Authors: Xunzhuo Liu, Huamin Chen, Samzong Lu, Yossi Ovadia, Guohong Wen, Zhengda Tan, Jintao Zhang, Senan Zedan, Yehudit Kerido, Liav Weiss, Bishen Yu, Asaad Balum, Noa Limoy, Abdallah Samara, Brent Salisbury, Hao Wu, Ryan Cook, Zhijie Wang, Qiping Pan, Rehan Khan, Avishek Goswami, Houston H. Zhang, Shuyi Wang, Ziang Tang, Fang Han, Zohaib Hassan, Jianqiao Zheng, Avinash Changrani,
- Abstract要約: vLLM Semantic Routerは、Mixture-of-Modality(MoM)モデルデプロイメントのための信号駆動決定ルーティングフレームワークである。
システムは、各要求から異種信号タイプを抽出する。
異なるデプロイメントシナリオは、同じアーキテクチャ上で異なるシグナル決定構成として表現される。
- 参考スコア(独自算出の注目度): 8.433829083279518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) diversify across modalities, capabilities, and cost profiles, the problem of intelligent request routing -- selecting the right model for each query at inference time -- has become a critical systems challenge. We present vLLM Semantic Router, a signal-driven decision routing framework for Mixture-of-Modality (MoM) model deployments. The central innovation is composable signal orchestration: the system extracts heterogeneous signal types from each request -- from sub-millisecond heuristic features (keyword patterns, language detection, context length, role-based authorization) to neural classifiers (domain, embedding similarity, factual grounding, modality) -- and composes them through configurable Boolean decision rules into deployment-specific routing policies. Different deployment scenarios -- multi-cloud enterprise, privacy-regulated, cost-optimized, latency-sensitive -- are expressed as different signal-decision configurations over the same architecture, without code changes. Matched decisions drive semantic model routing: over a dozen of selection algorithms analyze request characteristics to find the best model cost-effectively, while per-decision plugin chains enforce privacy and safety constraints (jailbreak detection, PII filtering, hallucination detection via the three-stage HaluGate pipeline). The system provides OpenAI API support for stateful multi-turn conversations, multi-endpoint and multi-provider routing across heterogeneous backends (vLLM, OpenAI, Anthropic, Azure, Bedrock, Gemini, Vertex AI), and a pluggable authorization factory supporting multiple auth providers. Deployed in production as an Envoy external processor, the architecture demonstrates that composable signal orchestration enables a single routing framework to serve diverse deployment scenarios with differentiated cost, privacy, and safety policies.
- Abstract(参考訳): 大規模言語モデル(LLM)がモダリティ、機能、コストプロファイルを多様化するにつれ、インテリジェントなリクエストルーティング -- 推論時にクエリ毎に適切なモデルを選択する -- という問題は、重要なシステム課題になっています。
本稿では,Mixture-of-Modality(MoM)モデルデプロイメントのための信号駆動決定ルーティングフレームワークであるセマンティックルータについて述べる。
システムは、サブミリ秒以下のヒューリスティックな特徴(キーワードパターン、言語検出、コンテキスト長、ロールベースの承認)からニューラル分類器(ドメイン、埋め込み類似性、事実的根拠、モダリティ)まで、各リクエストから異種信号タイプを抽出し、設定可能なブール決定ルールをデプロイメント固有のルーティングポリシーに組み込む。
異なるデプロイメントシナリオ -- マルチクラウドエンタープライズ、プライバシ規制、コスト最適化、レイテンシ感受性 – は、コードの変更なしに、同じアーキテクチャ上で異なるシグナル決定設定として表現される。
マッチした決定はセマンティックモデルルーティングを駆動する: 10以上の選択アルゴリズムが要求特性を分析して、最良のモデルを見つける。一方、決定ごとのプラグインチェーンは、プライバシと安全性の制約(ジェイルブレイク検出、PIIフィルタリング、三段階のHaluGateパイプラインによる幻覚検出)を強制する。
このシステムは、ステートフルなマルチターン会話のサポート、異種バックエンド(vLLM、OpenAI、Anthropic、Azure、Bedrock、Gemini、Vertex AI)をまたいだマルチターンのマルチエンドポイントとマルチプロデューサルーティング、および複数の認証プロバイダをサポートするプラグイン可能な認証ファクトリを提供する。
Envoy外部プロセッサとして本番環境にデプロイされたこのアーキテクチャは、構成可能なシグナルオーケストレーションによって、コスト、プライバシ、安全ポリシを区別したさまざまなデプロイメントシナリオを、単一のルーティングフレームワークで実現することを実証している。
関連論文リスト
- Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey [4.273936276295959]
多様な機能、コスト、ドメインを持つ大規模言語モデル(LLM)は、推論時にインテリジェントなモデル選択に重要なニーズを生み出している。
クエリ特性に基づいてモデルを適応的に選択する動的ルーティングシステムが,この課題の解決策として登場した。
本稿では,最先端のマルチLLMルーティングとカスケード手法の体系的解析を行う。
論文 参考訳(メタデータ) (2026-02-23T21:57:27Z) - UniRoute: Unified Routing Mixture-of-Experts for Modality-Adaptive Remote Sensing Change Detection [6.323154336421137]
UniRouteは、モダリティ適応学習のための統一されたフレームワークである。
グローバルな意味的文脈から局所空間の詳細を遠ざけるための適応受容場ルーティングMOEモジュールを提案する。
また,データスカースな異種環境下での統一学習を安定化する一貫性を考慮した自己蒸留手法を提案する。
論文 参考訳(メタデータ) (2026-01-21T09:21:25Z) - HierRouter: Coordinated Routing of Specialized Large Language Models via Reinforcement Learning [11.03159148013318]
大規模言語モデル(LLM)は多くのタスクにまたがって最先端のパフォーマンスを提供するが、高い計算とメモリコストを課す。
特殊な軽量言語モデルのプールから推論パイプラインを動的に組み立てる階層的ルーティング手法であるHierを提案する。
論文 参考訳(メタデータ) (2025-11-13T02:12:14Z) - RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory [57.449129198822476]
RCRは、マルチエージェント大言語モデル(LLM)システムのためのロールアウェアコンテキストルーティングフレームワークである。
役割とタスクステージに基づいて、各エージェントに対して意味的に関連するメモリサブセットを動的に選択する。
軽量スコアリングポリシは、メモリ選択をガイドし、エージェント出力を共有メモリストアに統合する。
論文 参考訳(メタデータ) (2025-08-06T21:59:34Z) - FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [57.577843653775]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - Multi-path Neural Networks for On-device Multi-domain Visual
Classification [55.281139434736254]
本稿では,モバイルデバイス上でのマルチドメイン視覚分類のためのマルチパスネットワークの自動学習手法を提案する。
提案するマルチパスネットワークは,各ドメインに1つの強化学習コントローラを適用して,MobileNetV3のような検索空間から生成されたスーパーネットワークの最適経路を選択することにより,ニューラルネットワーク検索から学習する。
決定されたマルチパスモデルは、個々のドメインパス内の非共有ノード内にドメイン固有のパラメータを保持しながら、共有ノード内のドメイン間でパラメータを選択的に共有する。
論文 参考訳(メタデータ) (2020-10-10T05:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。