論文の概要: Maestro: Reinforcement Learning to Orchestrate Hierarchical Model-Skill Ensembles
- arxiv url: http://arxiv.org/abs/2605.22177v1
- Date: Thu, 21 May 2026 08:47:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.171377
- Title: Maestro: Reinforcement Learning to Orchestrate Hierarchical Model-Skill Ensembles
- Title(参考訳): Maestro: 階層的なモデルスキルのアンサンブルを編成する強化学習
- Authors: Jinyang Wu, Guocheng Zhai, Ruihan Jin, Yuhao Shen, Zhengxi Lu, Fan Zhang, Haoran Luo, Zheng Lian, Zhengqi Wen, Jianhua Tao,
- Abstract要約: 強化学習駆動オーケストレーションフレームワークであるMaestroを紹介します。
Maestroは、階層的なモデルスキルレジストリ上でのシーケンシャルな意思決定プロセスとして、異質なマルチモーダルタスクを再構成する。
数学的推論,チャート理解,高分解能知覚,ドメイン固有分析を対象とする10の代表的なマルチモーダルベンチマークに対して,Maestroの評価を行った。
- 参考スコア(独自算出の注目度): 32.54156025863882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proliferation of large language models (LLMs) and modular skills has endowed autonomous agents with increasingly powerful capabilities. Existing frameworks typically rely on monolithic LLMs and fixed logic to interface with these skills. This gives rise to a critical bottleneck: different LLMs offer distinct advantages across diverse domains, yet current frameworks fail to exploit the complementary strengths of models and skills, thereby limiting their performance on downstream tasks. In this paper, we present Maestro (Multimodal Agent for Expert-Skill Targeted Reinforced Orchestration), a Reinforcement Learning (RL)-driven orchestration framework that reframes heterogeneous multimodal tasks as a sequential decision-making process over a hierarchical model-skill registry. Rather than consolidating all knowledge into a single model, Maestro trains a lightweight policy to dynamically compose ensembles of frozen expert models and a two-tier skill library, deciding at each step whether to invoke an external expert, which model-skill pair to select, and when to terminate. The policy is optimized via outcome-based RL, requiring no step-level supervision. We evaluate Maestro across ten representative multimodal benchmarks spanning mathematical reasoning, chart understanding, high-resolution perception, and domain-specific analysis. With only a 4B orchestrator, Maestro achieves an average accuracy of 70.1%, surpassing both GPT-5 (69.3%) and Gemini-2.5-Pro (68.7%). Crucially, the learned coordination policy generalizes to unseen models and skills without retraining: augmenting the registry with out-of-domain experts yields a 59.5% average on four challenging benchmarks, outperforming all closed-source baselines. Maestro further maintains high computational efficiency with low latency. The source code is available at https://github.com/jinyangwu/Maestro.
- Abstract(参考訳): 大規模言語モデル(LLM)とモジュラースキルの急増により、ますます強力な能力を持つ自律エージェントが生まれてきた。
既存のフレームワークは通常、これらのスキルとインターフェースするためにモノリシックなLLMと固定ロジックに依存します。
現在のフレームワークでは、モデルとスキルの相補的な強みを活用できないため、下流タスクのパフォーマンスが制限されます。
本稿では,RL(Reinforcement Learning)駆動オーケストレーションフレームワークであるMultimodal Agent for Expert-Skill Targeted Reinforced Orchestration(Multimodal Agent for Expert-Skill Targeted Reinforced Orchestration)について述べる。
すべての知識を単一のモデルに統合する代わりに、Maestroは、凍結した専門家モデルと2階層のスキルライブラリのアンサンブルを動的に構成する軽量なポリシーをトレーニングし、外部の専門家を呼び出すか、どのモデルスキルペアを選択するか、いつ終了するかを各ステップで決定する。
ポリシーは結果ベースのRLで最適化されており、ステップレベルの監視は不要である。
数学的推論,チャート理解,高分解能知覚,ドメイン固有分析を対象とする10の代表的なマルチモーダルベンチマークを対象に,Maestroの評価を行った。
4Bのオーケストラだけで、マエストロはGPT-5(69.3%)とジェミニ2.5-Pro(68.7%)を上回り、平均70.1%の精度を達成した。
ドメイン外の専門家によるレジストリの拡大は、4つの挑戦的なベンチマークで平均59.5%となり、すべてのクローズドソースベースラインを上回ります。
Maestroはさらに低レイテンシで高い計算効率を維持する。
ソースコードはhttps://github.com/jinyangwu/Maestro.comで入手できる。
関連論文リスト
- Schedule-and-Calibrate: Utility-Guided Multi-Task Reinforcement Learning for Code LLMs [11.726044374246642]
UTility-driven Coordination を用いたマルチタスクコード強化学習フレームワーク ASTOR を提案する。
ASTORは、全てのタスクにまたがる単一のモデルを改善し、最高のタスクに特化したスペシャリストを9.0%-9.5%、最強のMTRLベースラインを7.5%-12.8%上回った。
論文 参考訳(メタデータ) (2026-05-07T12:24:53Z) - Token-Level LLM Collaboration via FusionRoute [60.72307345997823]
FusionRouteはトークンレベルのマルチLLMコラボレーションフレームワークである。
各デコーディングステップで最も適した専門家を選択し、選択した専門家の次のTokenディストリビューションを洗練または修正する補完ロジットをコントリビュートする。
シーケンスレベルのコラボレーションとトークンレベルのコラボレーション、モデルマージ、ダイレクト微調整の両方に優れています。
論文 参考訳(メタデータ) (2026-01-08T16:53:16Z) - MortgageLLM: Domain-Adaptive Pretraining with Residual Instruction Transfer, Alignment Tuning, and Task-Specific Routing [0.7367330074083941]
ドメイン固有の新しい大規模言語モデルであるMortgageLLMを提案する。
シングルベースモデルからデュアルトラックの特殊化フレームワークを用いて開発されている。
我々は,(1)高度に専門化された住宅ローン金融分野へのこの残留手法の適用,(2)対話型Q&Aモデルと,分類と要約のための構造化タスクモデルを組み合わせたデュアルエキスパートアーキテクチャ,(3)エキスパートモデル自体が行う少数ショット分類を用いたインテリジェントタスクルーティング機構を提案する。
論文 参考訳(メタデータ) (2025-11-26T06:37:57Z) - Revolutionizing Reinforcement Learning Framework for Diffusion Large Language Models [49.911784762244814]
TraceRLは拡散言語モデル(DLM)のための軌道対応強化学習フレームワークである
我々は最先端の拡散言語モデル、すなわち TraDo を導出する。
TraDo-8B-InstructはQwen2.5-7B-Instructで6.1%、Llama3.1-8B-Instructで51.3%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-09-08T17:58:06Z) - Multiple Weaks Win Single Strong: Large Language Models Ensemble Weak Reinforcement Learning Agents into a Supreme One [28.264011412168347]
モデルアンサンブルは強化学習(RL)において有効なエージェントの訓練に有用である。
LLM-Ensは,タスク固有の意味理解を用いてRLモデルのアンサンブルを強化する手法である。
論文 参考訳(メタデータ) (2025-05-21T09:35:43Z) - Symbolic Mixture-of-Experts: Adaptive Skill-based Routing for Heterogeneous Reasoning [76.10639521319382]
シンボリックなテキストベースでグラデーションのないMixture-of-ExpertsフレームワークであるSybolic-MoEを提案する。
GPT4o-miniのような強力なLCMやマルチエージェントアプローチに勝るSymbolic-MoEは、最高のマルチエージェントベースラインよりも8.15%向上している。
論文 参考訳(メタデータ) (2025-03-07T18:03:13Z) - MALib: A Parallel Framework for Population-based Multi-agent
Reinforcement Learning [61.28547338576706]
人口ベースマルチエージェント強化学習(PB-MARL)は、強化学習(RL)アルゴリズムでネストした一連の手法を指す。
PB-MARLのためのスケーラブルで効率的な計算フレームワークMALibを提案する。
論文 参考訳(メタデータ) (2021-06-05T03:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。