論文の概要: MasHost Builds It All: Autonomous Multi-Agent System Directed by Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.08507v1
- Date: Tue, 10 Jun 2025 07:04:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:41.758555
- Title: MasHost Builds It All: Autonomous Multi-Agent System Directed by Reinforcement Learning
- Title(参考訳): MasHostがすべてを構築する:強化学習による自律的マルチエージェントシステム
- Authors: Kuo Yang, Xingjie Yang, Linhui Yu, Qing Xu, Yan Fang, Xu Wang, Zhengyang Zhou, Yang Wang,
- Abstract要約: 大規模言語モデル(LLM)駆動型マルチエージェントシステム(Mas)は、最近、複雑な実世界のタスクに取り組むための強力なパラダイムとして登場した。
既存のMasの構築方法は手作業によるインタラクションメカニズムやルールに依存し、人間のバイアスを導入し、自律的な能力を制限する。
本稿では,自律型およびクエリ型Mas設計のための強化学習ベースのフレームワークMasHostを提案する。
- 参考スコア(独自算出の注目度): 13.101635302222183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM)-driven Multi-agent systems (Mas) have recently emerged as a powerful paradigm for tackling complex real-world tasks. However, existing Mas construction methods typically rely on manually crafted interaction mechanisms or heuristic rules, introducing human biases and constraining the autonomous ability. Even with recent advances in adaptive Mas construction, existing systems largely remain within the paradigm of semi-autonomous patterns. In this work, we propose MasHost, a Reinforcement Learning (RL)-based framework for autonomous and query-adaptive Mas design. By formulating Mas construction as a graph search problem, our proposed MasHost jointly samples agent roles and their interactions through a unified probabilistic sampling mechanism. Beyond the accuracy and efficiency objectives pursued in prior works, we introduce component rationality as an additional and novel design principle in Mas. To achieve this multi-objective optimization, we propose Hierarchical Relative Policy Optimization (HRPO), a novel RL strategy that collaboratively integrates group-relative advantages and action-wise rewards. To our knowledge, our proposed MasHost is the first RL-driven framework for autonomous Mas graph construction. Extensive experiments on six benchmarks demonstrate that MasHost consistently outperforms most competitive baselines, validating its effectiveness, efficiency, and structure rationality.
- Abstract(参考訳): 大規模言語モデル(LLM)駆動型マルチエージェントシステム(Mas)は、最近、複雑な実世界のタスクに取り組むための強力なパラダイムとして登場した。
しかし、既存のMasの構築方法は、通常手作業によるインタラクションメカニズムやヒューリスティックなルールに依存し、人間のバイアスを導入し、自律的な能力を制限する。
近年の適応型Mas構築の進歩にもかかわらず、既存のシステムは半自律パターンのパラダイムの中に留まっている。
本研究では,自律型およびクエリ適応型Mas設計のための強化学習(Reinforcement Learning, RL)ベースのフレームワークMasHostを提案する。
グラフ探索問題としてMas構築を定式化することにより,提案するMasHostはエージェントの役割と相互作用を,統一的な確率的サンプリング機構を通じて共同でサンプリングする。
先行研究で追求された精度と効率の目標を超えて,我々はMasにおける新たな設計原理として,コンポーネントの合理性を導入する。
この多目的最適化を実現するために,グループ相対的優位性とアクションワイド報酬を協調的に統合する新しいRL戦略である階層相対政策最適化(HRPO)を提案する。
我々の知る限り、提案したMasHostは自律的なMasグラフ構築のための最初のRL駆動フレームワークである。
6つのベンチマークでの大規模な実験により、MasHostはその有効性、効率、構造的合理性を検証し、最も競争力のあるベースラインを一貫して上回っていることが示された。
関連論文リスト
- OptiMindTune: A Multi-Agent Framework for Intelligent Hyperparameter Optimization [0.0]
本稿では,ハイパーパラメータをインテリジェントかつ効率的に最適化する新しいマルチエージェントフレームワークOptiMindTuneを紹介する。
私たちは、GoogleのGeminiモデルによって、Recommender Agent、Evaluator Agent、Decision Agentという3つの専門AIエージェントの協調的なインテリジェンスを活用しています。
我々のフレームワークは、高度な大規模言語モデルと適応検索の原則を統合し、スケーラブルでインテリジェントなAutoMLを実現する。
論文 参考訳(メタデータ) (2025-05-25T16:05:41Z) - MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision [76.42361936804313]
自動MAS設計のための自己進化型推論時間フレームワークMAS-ZEROを紹介する。
MAS-ZEROはメタレベルの設計を採用し、各問題インスタンスに適したMAS構成を反復的に生成し、評価し、洗練する。
論文 参考訳(メタデータ) (2025-05-21T00:56:09Z) - The Athenian Academy: A Seven-Layer Architecture Model for Multi-Agent Systems [13.241259457317547]
本稿では,「アテネ学術」の多層7層構造を提案する。
人工知能(AI)アート創造におけるマルチエージェントシステム(MAS)の課題に対処する。
このフレームワークは、AIアート作成におけるマルチエージェントコラボレーションのための構造化された方法論を提供し、アート分野における革新的な応用を促進する。
論文 参考訳(メタデータ) (2025-04-17T08:21:28Z) - Multi-Agent Design: Optimizing Agents with Better Prompts and Topologies [41.21314691388456]
対話やコラボレーションを行う複数のエージェントとして使用される大規模な言語モデルは、複雑なタスクの解決に優れています。
マルチエージェントシステム(MAS)のプロンプトやトポロジーの設計は本質的に複雑である。
複雑なMAS設計空間を効率的に活用するMAS最適化フレームワークであるMulti-Agent System Search (MASS)を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:56:44Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [66.9481561915524]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - Large Language Model as a Catalyst: A Paradigm Shift in Base Station Siting Optimization [62.16747639440893]
大規模言語モデル(LLM)とその関連技術は、特に迅速な工学とエージェント工学の領域において進歩している。
提案するフレームワークは、検索拡張生成(RAG)を組み込んで、ドメイン固有の知識を取得してソリューションを生成するシステムの能力を高める。
論文 参考訳(メタデータ) (2024-08-07T08:43:32Z) - Orchestration of Emulator Assisted Mobile Edge Tuning for AI Foundation
Models: A Multi-Agent Deep Reinforcement Learning Approach [10.47302625959368]
我々は,モバイルエッジコンピューティングと基礎モデルを統合した画期的なパラダイムを提示する。
私たちのアプローチの中心はイノベーティブなEmulator-Adapterアーキテクチャであり、基礎モデルを2つの凝集モジュールに分割する。
本稿では,分散環境におけるEmulator-Adapter構造のニーズに合わせて微調整された高度なリソース割り当て機構を提案する。
論文 参考訳(メタデータ) (2023-10-26T15:47:51Z) - Planning-oriented Autonomous Driving [60.93767791255728]
我々は、最終目標、すなわち自動運転車の計画を追求するために、好ましいフレームワークを考案し、最適化すべきであると主張している。
フルスタック運転タスクをひとつのネットワークに組み込んだ総合的なフレームワークであるUnified Autonomous Driving (UniAD)を紹介した。
論文 参考訳(メタデータ) (2022-12-20T10:47:53Z) - Multi-Agent Reinforcement Learning for Microprocessor Design Space
Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。
この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。
評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文 参考訳(メタデータ) (2022-11-29T17:10:24Z) - Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文 参考訳(メタデータ) (2022-05-05T05:44:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。