論文の概要: Controlling Performance and Budget of a Centralized Multi-agent LLM System with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.02755v1
- Date: Tue, 04 Nov 2025 17:35:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:06.123683
- Title: Controlling Performance and Budget of a Centralized Multi-agent LLM System with Reinforcement Learning
- Title(参考訳): 強化学習型集中型マルチエージェントLCMシステムの性能と予算管理
- Authors: Bowen Jin, TJ Collins, Donghan Yu, Mert Cemri, Shenao Zhang, Mengyu Li, Jay Tang, Tian Qin, Zhiyang Xu, Jiarui Lu, Guoli Yin, Jiawei Han, Zirui Wang,
- Abstract要約: 大規模言語モデル(LLM)は、ドメイン間で補完的な強みを示し、様々な推論コストが伴う。
既存のアプローチは分散化されたフレームワークに依存しており、入力毎に複数のLSMを呼び出すため、実質的で制御されていない推論コストが発生する。
我々は,LLMコントローラが,コスト効率とコスト制御が可能な方法で,専門家モデルのプールを選択的にコーディネートする,集中型マルチLLMフレームワークを提案する。
- 参考スコア(独自算出の注目度): 53.57360296655208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) exhibit complementary strengths across domains and come with varying inference costs, motivating the design of multi-agent LLM systems where specialized models collaborate efficiently. Existing approaches predominantly rely on decentralized frameworks, which invoke multiple LLMs for every input and thus lead to substantial and uncontrolled inference costs. In this work, we introduce a centralized multi-LLM framework, where a controller LLM selectively coordinates a pool of expert models in a cost-efficient and cost-controllable manner. We formulate this coordination problem as reinforcement learning with dual objectives: maximizing task performance while minimizing the overall inference cost. In addition, we expect the multi-agent system to have adapted behavior with different budget conditions during inference. To this end, we propose CoRL, a reinforcement learning framework that optimizes the performance cost trade-off in a controllable multi-budget setting. Experiments on four diverse benchmarks demonstrate that CoRL enables a single system to surpass the best expert LLM under high-budget settings, while maintaining strong performance in more economical low-budget modes, highlighting the effectiveness of centralized coordination for scalable and cost-efficient multi-agent LLM systems.
- Abstract(参考訳): 大規模言語モデル(LLM)はドメイン間の相補的な強みを示し、様々な推論コストを伴い、特殊なモデルが効率的に協調するマルチエージェントLLMシステムの設計を動機付けている。
既存のアプローチは、主に分散化されたフレームワークに依存しており、入力毎に複数のLSMを呼び出すため、実質的で制御されていない推論コストが発生する。
本稿では,LLMコントローラが,コスト効率とコスト制御が可能な方法で,専門家モデルのプールを選択的にコーディネートする,集中型マルチLLMフレームワークを提案する。
この調整問題を2つの目的を持つ強化学習として定式化し、全体の推論コストを最小化しながらタスク性能を最大化する。
さらに,マルチエージェントシステムでは,推論時に異なる予算条件で適応的な動作が期待できる。
この目的のために,制御可能なマルチ予算設定における性能コストトレードオフを最適化する強化学習フレームワークであるCoRLを提案する。
4つの多種多様なベンチマーク実験により、CoRLは単一システムにおいて、高予算環境下で最高の専門家LLMを越えつつ、より経済的に低予算モードでの強力な性能を維持しつつ、スケーラブルで費用効率のよいマルチエージェントLLMシステムに対する集中的な調整の有効性を強調しながら、高い予算環境下での最高の専門家LLMを克服できることが示されている。
関連論文リスト
- Heterogeneous Group-Based Reinforcement Learning for LLM-based Multi-Agent Systems [25.882461853973897]
本稿では、相対報酬の利点を推定して政策更新を導くマルチエージェント不均一グループ政策最適化(MHGPO)を提案する。
MHGPOは、批判的ネットワークの必要性を排除し、安定性を向上し、計算オーバーヘッドを減らす。
また,効率性と有効性を両立させる3つのグループロールアウトサンプリング戦略も導入する。
論文 参考訳(メタデータ) (2025-06-03T10:17:19Z) - RLAE: Reinforcement Learning-Assisted Ensemble for LLMs [21.77261258691006]
大規模言語モデル(LLM)は、様々なモデルの多様な強みを効果的に組み合わせ、様々なタスクのパフォーマンスを高めるための有望なアプローチを提供する。
マルコフ決定プロセス(MDP)のレンズを通してアンサンブルを再構成する新しいフレームワークであるLLMのための強化学習支援アンサンブルを提案する。
提案手法では,入力コンテキストと中間生成状態の両方を考慮してアンサンブル重みを動的に調整するRLエージェントを提案する。
論文 参考訳(メタデータ) (2025-05-31T07:38:41Z) - LightRouter: Towards Efficient LLM Collaboration with Minimal Overhead [19.573553157421774]
Lightは、より大きなプールからLLMの小さなサブセットを体系的に選択、統合するために設計された新しいフレームワークである。
実験によると、光は広く使われているアンサンブルのベースラインと一致し、25%の精度向上を実現している。
本研究は、効率的なLCM選択のための実践的なアプローチを導入し、モデル組み合わせのための最適な戦略に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2025-05-22T04:46:04Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Dynamic Optimizations of LLM Ensembles with Two-Stage Reinforcement Learning Agents [31.341487297459995]
本稿では,LLMをルートおよびアンサンブルする2段階のRLエージェントフレームワークであるRL-Focalを紹介する。
焦点多様性により、報酬意識と政策適応型アンサンブル選択と推論融合を効果的に促進することにより、タスク間のパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2025-02-06T20:44:26Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [67.76186488361685]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - MaCTG: Multi-Agent Collaborative Thought Graph for Automatic Programming [10.461509044478278]
MaCTG (MultiAgent Collaborative Thought Graph) は動的グラフ構造を用いる新しいマルチエージェントフレームワークである。
プログラム要求に基づいてエージェントロールを自律的に割り当て、タスクの分散を動的に洗練し、プロジェクトレベルのコードを体系的に検証し統合する。
MaCTGは既存のマルチエージェントフレームワークと比較して運用コストを89.09%削減した。
論文 参考訳(メタデータ) (2024-10-25T01:52:15Z) - A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs [74.35290684163718]
大規模言語モデル(LLM)開発における最大の課題は、その面倒な事前トレーニングコストである。
本稿では,小言語モデル(SLM)を活用して,LLMの事前学習効率と品質を改善するための有望なパラダイムについて検討する。
論文 参考訳(メタデータ) (2024-10-24T14:31:52Z) - CoMMIT: Coordinated Multimodal Instruction Tuning [90.1532838391285]
マルチモーダル大言語モデル(MLLM)は一般に、バックボーンLLMと非テキスト入力モードの特徴エンコーダ間の協調学習を含む。
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
本稿では,学習のバランスを定量的に測定できるマルチモーダルバランス係数を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。