論文の概要: Towards Generalized Routing: Model and Agent Orchestration for Adaptive and Efficient Inference
- arxiv url: http://arxiv.org/abs/2509.07571v1
- Date: Tue, 09 Sep 2025 10:15:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.26327
- Title: Towards Generalized Routing: Model and Agent Orchestration for Adaptive and Efficient Inference
- Title(参考訳): 一般化ルーティングに向けて:適応的かつ効率的な推論のためのモデルとエージェントオーケストレーション
- Authors: Xiyu Guo, Shan Wang, Chunfang Ji, Xuefeng Zhao, Wenhao Xi, Yaoyao Liu, Qinglan Li, Chao Deng, Junlan Feng,
- Abstract要約: MoMA(Mixture of Models and Agents)は、大規模言語モデル(LLM)とエージェントベースのルーティングを統合するフレームワークである。
本稿では,異なるルーティングモデル構造下での各種LLMの能力を評価するためのトレーニングデータセットを提案する。
推論中、クエリは最高のコストパフォーマンス効率でLSMに動的にルーティングされる。
- 参考スコア(独自算出の注目度): 37.57624773333661
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of large language models (LLMs) and domain-specific AI agents has greatly expanded the ecosystem of AI-powered services. User queries, however, are highly diverse and often span multiple domains and task types, resulting in a complex and heterogeneous landscape. This diversity presents a fundamental routing challenge: how to accurately direct each query to an appropriate execution unit while optimizing both performance and efficiency. To address this, we propose MoMA (Mixture of Models and Agents), a generalized routing framework that integrates both LLM and agent-based routing. Built upon a deep understanding of model and agent capabilities, MoMA effectively handles diverse queries through precise intent recognition and adaptive routing strategies, achieving an optimal balance between efficiency and cost. Specifically, we construct a detailed training dataset to profile the capabilities of various LLMs under different routing model structures, identifying the most suitable tasks for each LLM. During inference, queries are dynamically routed to the LLM with the best cost-performance efficiency. We also introduce an efficient agent selection strategy based on a context-aware state machine and dynamic masking. Experimental results demonstrate that the MoMA router offers superior cost-efficiency and scalability compared to existing approaches.
- Abstract(参考訳): 大規模言語モデル(LLM)とドメイン固有のAIエージェントの急速な進歩は、AI駆動サービスのエコシステムを大きく拡大した。
しかし、ユーザクエリは非常に多様で、複数のドメインやタスクタイプにまたがることが多いため、複雑で異質なランドスケープが生まれる。
この多様性は、パフォーマンスと効率を最適化しながら、各クエリを適切な実行ユニットに正確に指示する方法という、基本的なルーティング課題を提示します。
そこで本研究では,LLMとエージェントベースのルーティングを統合した汎用ルーティングフレームワークであるMoMA(Mixture of Models and Agents)を提案する。
モデルとエージェントの機能の深い理解に基づいて構築されたMoMAは、正確な意図認識と適応的なルーティング戦略を通じて、多様なクエリを効果的に処理し、効率とコストの最適なバランスを達成する。
具体的には、異なるルーティングモデル構造下での様々なLLMの機能をプロファイリングするために、詳細なトレーニングデータセットを構築し、各LLMに最も適したタスクを特定する。
推論中、クエリは最高のコストパフォーマンス効率でLSMに動的にルーティングされる。
また、コンテキスト認識型状態マシンと動的マスキングに基づく効率的なエージェント選択戦略を導入する。
実験の結果,MoMAルータは既存の手法に比べてコスト効率とスケーラビリティが優れていることがわかった。
関連論文リスト
- RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory [57.449129198822476]
RCRは、マルチエージェント大言語モデル(LLM)システムのためのロールアウェアコンテキストルーティングフレームワークである。
役割とタスクステージに基づいて、各エージェントに対して意味的に関連するメモリサブセットを動的に選択する。
軽量スコアリングポリシは、メモリ選択をガイドし、エージェント出力を共有メモリストアに統合する。
論文 参考訳(メタデータ) (2025-08-06T21:59:34Z) - Query Routing for Retrieval-Augmented Language Models [38.05904245087491]
Retrieval-Augmented Generation (RAG) は、知識集約タスクにおけるLarge Language Models (LLM) の性能を大幅に向上させる。
既存のルーティング手法はRAGシナリオで最適以下の性能を示すのに対し,外部文書はLLMのクエリ応答能力に動的に影響を及ぼす。
本稿では、文書埋め込みとRAG機能埋め込みを利用して知識表現シフトを捉えるパラメトリックなRAG対応ルーティング設計であるRAGを提案する。
論文 参考訳(メタデータ) (2025-05-29T03:44:56Z) - INFERENCEDYNAMICS: Efficient Routing Across LLMs through Structured Capability and Knowledge Profiling [44.309917620936474]
InferenceDynamicsは、モデルの能力と知識をモデル化することによって、柔軟でスケーラブルな多次元ルーティングフレームワークである。
包括的データセットであるRouteMixで運用し、グループレベルのルーティングの有効性と一般化性を実証する。
論文 参考訳(メタデータ) (2025-05-22T06:56:51Z) - LightRouter: Towards Efficient LLM Collaboration with Minimal Overhead [19.573553157421774]
Lightは、より大きなプールからLLMの小さなサブセットを体系的に選択、統合するために設計された新しいフレームワークである。
実験によると、光は広く使われているアンサンブルのベースラインと一致し、25%の精度向上を実現している。
本研究は、効率的なLCM選択のための実践的なアプローチを導入し、モデル組み合わせのための最適な戦略に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2025-05-22T04:46:04Z) - Multiple Weaks Win Single Strong: Large Language Models Ensemble Weak Reinforcement Learning Agents into a Supreme One [28.264011412168347]
モデルアンサンブルは強化学習(RL)において有効なエージェントの訓練に有用である。
LLM-Ensは,タスク固有の意味理解を用いてRLモデルのアンサンブルを強化する手法である。
論文 参考訳(メタデータ) (2025-05-21T09:35:43Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - LLM Bandit: Cost-Efficient LLM Generation via Preference-Conditioned Dynamic Routing [3.090041654375235]
本稿では, LLM選択過程を多武装バンディット問題として定式化する新しい枠組みを提案する。
提案手法は好み条件付き動的ルーティング機構を組み込んでおり、ユーザーは推論時に好みを指定できる。
提案手法は,LLMプラットフォーム間での精度とコスト効率の両立を実現している。
論文 参考訳(メタデータ) (2025-02-04T22:09:43Z) - Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。
MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。
総合的なベンチマークによりMPPの有効性を評価する。
論文 参考訳(メタデータ) (2024-06-17T16:14:11Z) - A Dynamic LLM-Powered Agent Network for Task-Oriented Agent Collaboration [55.35849138235116]
本稿では,様々なタスクやドメインに対する動的コミュニケーション構造において,候補からエージェントのチームを自動的に選択する手法を提案する。
具体的には, LLMを利用したエージェント協調のための動的LLMパワーエージェントネットワーク(textDyLAN$)というフレームワークを構築した。
我々は、コード生成、意思決定、一般的な推論、算術的推論タスクにおいて、適度な計算コストで、DyLANが強力なベースラインを上回ることを実証する。
論文 参考訳(メタデータ) (2023-10-03T16:05:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。