論文の概要: CoMAS: Co-Evolving Multi-Agent Systems via Interaction Rewards
- arxiv url: http://arxiv.org/abs/2510.08529v1
- Date: Thu, 09 Oct 2025 17:50:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.277454
- Title: CoMAS: Co-Evolving Multi-Agent Systems via Interaction Rewards
- Title(参考訳): CoMAS:インタラクション・リワードによるマルチエージェントシステムの共同開発
- Authors: Xiangyuan Xue, Yifan Zhou, Guibin Zhang, Zaibin Zhang, Yijiang Li, Chen Zhang, Zhenfei Yin, Philip Torr, Wanli Ouyang, Lei Bai,
- Abstract要約: 自己進化(Self-evolution)は、大規模言語モデル(LLM)ベースのエージェントが事前トレーニング後の能力を継続的に改善できるようにする上で、中心的な研究トピックである。
エージェントがエージェント間相互作用から学習することで自律的に改善できる新しいフレームワークであるCo-Evolving Multi-Agent Systems (CoMAS)を紹介する。
- 参考スコア(独自算出の注目度): 80.78748457530718
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Self-evolution is a central research topic in enabling large language model (LLM)-based agents to continually improve their capabilities after pretraining. Recent research has witnessed a transition from reinforcement learning (RL)-free to RL-based methods. Current RL-based methods either rely on dense external reward signals or extract intrinsic reward signals from LLMs themselves. However, these approaches diverge from the self-evolution mechanisms observed in human intelligence, where individuals learn and improve through mutual discussion and collaboration. In this work, we introduce Co-Evolving Multi-Agent Systems (CoMAS), a novel framework that enables agents to improve autonomously by learning from inter-agent interactions without external supervision. CoMAS generates intrinsic rewards from rich discussion dynamics, employs an LLM-as-a-judge mechanism to formulate these rewards, and optimizes each agent's policy through RL, thereby enabling decentralized and scalable co-evolution. Experimental results demonstrate that CoMAS consistently outperforms untrained agents and achieves state-of-the-art performance across most evaluation settings. Ablation studies confirm the necessity of interaction-based reward signals and reveal promising scalability as the number and diversity of agents increase. These findings establish CoMAS as a novel and effective paradigm for self-evolution in LLM-based agents.
- Abstract(参考訳): 自己進化(Self-evolution)は、大規模言語モデル(LLM)ベースのエージェントが事前トレーニング後の能力を継続的に改善できるようにする上で、中心的な研究トピックである。
最近の研究は、強化学習(RL)からRLベースの方法への移行を目撃している。
現在のRLベースの手法は、密度の高い外部報酬信号に依存するか、LLM自体から固有の報酬信号を抽出する。
しかし、これらのアプローチは、個人が相互の議論やコラボレーションを通じて学び、改善する、人間の知性で観察される自己進化のメカニズムから分岐する。
本研究では,エージェントが外部の監督なしにエージェント間相互作用から学習することで自律的に改善できる新しいフレームワークであるCo-Evolving Multi-Agent Systems(CoMAS)を紹介する。
CoMASはリッチな議論力学から本質的な報酬を生成し、LLM-as-a-judge機構を用いて報酬を定式化し、RLを介して各エージェントのポリシーを最適化し、分散的でスケーラブルな共進化を可能にする。
実験の結果,CoMASはトレーニングされていないエージェントより一貫して優れており,ほとんどの評価設定で最先端のパフォーマンスを実現していることがわかった。
アブレーション研究は、相互作用に基づく報酬信号の必要性を確認し、エージェントの数と多様性が増加するにつれて、有望なスケーラビリティを明らかにする。
これらの知見は, LLM系薬剤の自己進化のための新規かつ効果的なパラダイムとしてCoMASを確立した。
関連論文リスト
- ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Coevolving with the Other You: Fine-Tuning LLM with Sequential Cooperative Multi-Agent Reinforcement Learning [13.753960633998389]
強化学習 (Reinforcement Learning, RL) は, 特定のタスクにおいて, 大規模言語モデル (LLM) を微調整するための重要な手法として登場した。
本稿では,LLMのRL微調整を逐次協調型マルチエージェント強化学習フレームワークに拡張したCORYを提案する。
その結果,CORYは政策最適性,分散崩壊抵抗性,ロバスト性の訓練においてPPOよりも優れていた。
論文 参考訳(メタデータ) (2024-10-08T14:55:26Z) - Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards [1.179778723980276]
MARL(Multi-agent Reinforcement Learning)は、シーケンシャルな意思決定と制御タスクの鍵となるフレームワークである。
これらのシステムを現実のシナリオに展開するには、分散トレーニング、多様なエージェントセット、そして頻繁な環境報酬信号から学ぶ必要がある。
我々は,新しいグラフニューラルネットワーク(GNN)に基づく本質的なモチベーションを利用して,異種エージェントポリシーの学習を容易にするCoHetアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-12T21:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。