論文の概要: Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey
- arxiv url: http://arxiv.org/abs/2603.04445v1
- Date: Mon, 23 Feb 2026 21:57:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.221795
- Title: Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey
- Title(参考訳): 効率的なLLM推論のための動的モデルルーティングとカスケード
- Authors: Yasmin Moslem, John D. Kelleher,
- Abstract要約: 多様な機能、コスト、ドメインを持つ大規模言語モデル(LLM)は、推論時にインテリジェントなモデル選択に重要なニーズを生み出している。
クエリ特性に基づいてモデルを適応的に選択する動的ルーティングシステムが,この課題の解決策として登場した。
本稿では,最先端のマルチLLMルーティングとカスケード手法の体系的解析を行う。
- 参考スコア(独自算出の注目度): 4.273936276295959
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid growth of large language models (LLMs) with diverse capabilities, costs, and domains has created a critical need for intelligent model selection at inference time. While smaller models suffice for routine queries, complex tasks demand more capable models. However, static model deployment does not account for the complexity and domain of incoming queries, leading to suboptimal performance and increased costs. Dynamic routing systems that adaptively select models based on query characteristics have emerged as a solution to this challenge. We provide a systematic analysis of state-of-the-art multi-LLM routing and cascading approaches. In contrast to mixture-of-experts architectures, which route within a single model, we study routing across multiple independently trained LLMs. We cover diverse routing paradigms, including query difficulty, human preferences, clustering, uncertainty quantification, reinforcement learning, multimodality, and cascading. For each paradigm, we analyze representative methods and examine key trade-offs. Beyond taxonomy, we introduce a conceptual framework that characterizes routing systems along three dimensions: when decisions are made, what information is used, and how they are computed. This perspective highlights that practical systems are often compositional, integrating multiple paradigms under operational constraints. Our analysis demonstrates that effective multi-LLM routing requires balancing competing objectives. Choosing the optimal routing strategy depends on deployment and computational constraints. Well-designed routing systems can outperform even the most powerful individual models by strategically leveraging specialized capabilities across models while maximizing efficiency gains. Meanwhile, open challenges remain in developing routing mechanisms that generalize across diverse architectures, modalities, and applications.
- Abstract(参考訳): 多様な機能、コスト、ドメインを持つ大規模言語モデル(LLM)の急速な成長は、推論時にインテリジェントなモデル選択にとって重要なニーズを生み出している。
より小さなモデルは通常のクエリで十分だが、複雑なタスクはより有能なモデルを必要とする。
しかし、静的モデルデプロイメントは、入ってくるクエリの複雑さとドメインを考慮しないため、最適以下のパフォーマンスとコストの増加につながる。
クエリ特性に基づいてモデルを適応的に選択する動的ルーティングシステムが,この課題の解決策として登場した。
本稿では,最先端のマルチLLMルーティングとカスケード手法の体系的解析を行う。
単一モデル内をルートするMix-of-expertsアーキテクチャとは対照的に,複数の独立に訓練されたLLM間のルーティングについて検討する。
クエリの難しさ、人間の好み、クラスタリング、不確実性定量化、強化学習、マルチモーダリティ、カスケードなど、さまざまなルーティングパラダイムをカバーしています。
各パラダイムに対して,代表的手法を分析し,重要なトレードオフを検討する。
分類学以外にも、決定が下されたとき、どの情報が使用されるか、どのように計算されるかという3つの側面に沿ってルーティングシステムを特徴付ける概念的なフレームワークを導入します。
この視点は、実用システムがしばしば構成的であり、運用上の制約の下で複数のパラダイムを統合することを強調している。
実効的なマルチLLMルーティングは競合する目的のバランスをとる必要があることを示す。
最適なルーティング戦略を選択するには、デプロイメントと計算の制約に依存する。
十分に設計されたルーティングシステムは、モデル全体の特殊能力を戦略的に活用し、効率の向上を最大化することで、最も強力な個別モデルよりも優れている。
一方、様々なアーキテクチャ、モダリティ、アプリケーションにまたがる一般的なルーティングメカニズムの開発には、未解決の課題が残っている。
関連論文リスト
- Trade-offs in Ensembling, Merging and Routing Among Parameter-Efficient Experts [56.02203242609604]
大規模言語モデル(LLM)は、軽量アダプタで微調整され、多様なタスクにわたって強力なパフォーマンスを実現する。
異なる強みを持つ独立に訓練されたモデルを使用することで、3つの主要な戦略を通じてマルチタスク学習の可能性を示している。
私たちは、彼らのトレードオフを実証的に評価し、2つの重要な疑問に対処します。 均一なアンサンブルやマージを超えて行く利点は何ですか?そして、ルーティングの柔軟性は、その複雑さを正当化するのでしょうか?
論文 参考訳(メタデータ) (2026-03-03T21:44:11Z) - CONCUR: A Framework for Continual Constrained and Unconstrained Routing [79.85419373937765]
AIタスクは複雑さが異なり、異なる計算戦略で対処するのが最善である。
これまでのほとんどのメソッドは、すべての戦略で単一のモデルをトレーニングすることで、ルーティングフレームワークを構築していました。
制約付きルーティングと制約なしルーティングの両方をサポートする連続的なルーティングフレームワークであるCONCURを提案する。
論文 参考訳(メタデータ) (2025-12-10T07:30:13Z) - NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。
NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。
さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文 参考訳(メタデータ) (2025-10-15T16:25:18Z) - Towards Generalized Routing: Model and Agent Orchestration for Adaptive and Efficient Inference [37.57624773333661]
MoMA(Mixture of Models and Agents)は、大規模言語モデル(LLM)とエージェントベースのルーティングを統合するフレームワークである。
本稿では,異なるルーティングモデル構造下での各種LLMの能力を評価するためのトレーニングデータセットを提案する。
推論中、クエリは最高のコストパフォーマンス効率でLSMに動的にルーティングされる。
論文 参考訳(メタデータ) (2025-09-09T10:15:42Z) - RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory [57.449129198822476]
RCRは、マルチエージェント大言語モデル(LLM)システムのためのロールアウェアコンテキストルーティングフレームワークである。
役割とタスクステージに基づいて、各エージェントに対して意味的に関連するメモリサブセットを動的に選択する。
軽量スコアリングポリシは、メモリ選択をガイドし、エージェント出力を共有メモリストアに統合する。
論文 参考訳(メタデータ) (2025-08-06T21:59:34Z) - Towards Efficient Multi-LLM Inference: Characterization and Analysis of LLM Routing and Hierarchical Techniques [14.892995952768352]
言語モデル(LM)は、テキスト生成、要約、質問応答といったタスクに優れています。
彼らの推論は計算コストが高く、ハードウェア、電力、帯域幅に制限のある設定でエネルギーを集中的に消費する。
近年のアプローチでは、クエリの複雑さに基づいて、動的に計算資源を割り当てる複数のLLMインテリジェントモデル選択戦略が導入されている。
論文 参考訳(メタデータ) (2025-06-06T23:13:08Z) - A Unified Approach to Routing and Cascading for LLMs [5.653106385738822]
様々なエージェントシステムに埋め込まれた大規模言語モデル(LLM)は、コストパフォーマンスのトレードオフを改善するためのモデル選択戦略の可能性を高めている。
既存の戦略には、クエリ毎にひとつのモデルが選択されるルーティング、あるいは、満足のいく回答が見つかるまで順次、より大きなモデルを実行するカスケードがある。
我々は、カスケードのための新しい最適戦略を導き、既存のルーティング戦略の最適性を証明する。
本稿では、ルーティングとカスケードを統合した統合フレームワークであるカスケードルーティングを理論的に最適な戦略として提案する。
論文 参考訳(メタデータ) (2024-10-14T10:00:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。