論文の概要: Heterogeneous Group-Based Reinforcement Learning for LLM-based Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2506.02718v1
- Date: Tue, 03 Jun 2025 10:17:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.59107
- Title: Heterogeneous Group-Based Reinforcement Learning for LLM-based Multi-Agent Systems
- Title(参考訳): LLMに基づくマルチエージェントシステムの不均一なグループベース強化学習
- Authors: Guanzhong Chen, Shaoxiong Yang, Chao Li, Wei Liu, Jian Luan, Zenglin Xu,
- Abstract要約: 本稿では、相対報酬の利点を推定して政策更新を導くマルチエージェント不均一グループ政策最適化(MHGPO)を提案する。
MHGPOは、批判的ネットワークの必要性を排除し、安定性を向上し、計算オーバーヘッドを減らす。
また,効率性と有効性を両立させる3つのグループロールアウトサンプリング戦略も導入する。
- 参考スコア(独自算出の注目度): 25.882461853973897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable success across diverse natural language processing tasks, yet their deployment in real-world applications is hindered by fixed knowledge cutoffs and difficulties in generating controllable, accurate outputs in a single inference. Multi-agent systems (MAS) built from specialized LLM agents offer a promising solution, enabling dynamic collaboration and iterative reasoning. However, optimizing these systems remains a challenge, as conventional methods such as prompt engineering and supervised fine-tuning entail high engineering overhead and limited adaptability. Reinforcement learning (RL), particularly multi-agent reinforcement learning (MARL), provides a scalable framework by refining agent policies based on system-level feedback. Nevertheless, existing MARL algorithms, such as Multi-Agent Proximal Policy Optimization (MAPPO), rely on Critic networks, which can cause training instability and increase computational burden. To address these limitations and target the prototypical Multi-Agent Search System (MASS), we propose Multi-Agent Heterogeneous Group Policy Optimization (MHGPO), a novel Critic-free algorithm that guides policy updates by estimating relative reward advantages across heterogeneous groups of rollouts. MHGPO eliminates the need for Critic networks, enhancing stability and reducing computational overhead. Additionally, we introduce three group rollout sampling strategies that trade off between efficiency and effectiveness. Experiments on a multi-agent LLM-based search system demonstrate that MHGPO consistently outperforms MAPPO in both task performance and computational efficiency, without requiring warm-up, underscoring its potential for stable and scalable optimization of complex LLM-based MAS.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な成功を収めてきたが、現実のアプリケーションへの展開は、固定された知識の遮断と、単一の推論で制御可能で正確な出力を生成することの難しさによって妨げられている。
特殊なLLMエージェントから構築されたマルチエージェントシステム(MAS)は、動的なコラボレーションと反復推論を可能にする有望なソリューションを提供する。
しかしながら、これらのシステムの最適化は、プロンプトエンジニアリングや教師付き微調整といった従来の手法は、高いエンジニアリングオーバーヘッドと限定的な適応性を必要とするため、依然として課題である。
強化学習(Reinforcement Learning, RL)、特にマルチエージェント強化学習(MARL)は、システムレベルのフィードバックに基づいてエージェントポリシーを精錬することにより、スケーラブルなフレームワークを提供する。
それでも、MAPPO (Multi-Agent Proximal Policy Optimization) のような既存のMARLアルゴリズムは、トレーニングの不安定性や計算負荷の増大を引き起こすCritic Networkに依存している。
これらの制約に対処し,マルチエージェント検索システム(MASS)を目標とするため,異種グループ間における相対的な報酬優位性を推定してポリシー更新を誘導する新アルゴリズムであるMHGPO(Multi-Agent Heterogeneous Group Policy Optimization)を提案する。
MHGPOは、批判的ネットワークの必要性を排除し、安定性を向上し、計算オーバーヘッドを減らす。
さらに,効率と有効性を両立させる3つのグループロールアウトサンプリング戦略を導入する。
マルチエージェント LLM ベースサーチシステムの実験により,MHGPO はタスク性能と計算効率の両方でMAPPO を一貫して上回り,ウォームアップを必要とせず,複雑な LLM ベースの MAS を安定かつスケーラブルに最適化する可能性を示している。
関連論文リスト
- Reinforcing Multi-Turn Reasoning in LLM Agents via Turn-Level Credit Assignment [29.617927643991877]
本稿では,強化学習(RL)を用いた大規模言語モデル(LLM)エージェントの推論能力向上のためのアプローチを検討する。
マルチターンエージェントのインタラクションにおいて、より正確なクレジット割り当てを可能にするための、きめ細かいターンレベルの利点推定戦略を導入する。
本手法は,ツール実行における100%の成功と,正解マッチングにおける50%の精度を実現し,ベースラインを著しく上回る結果を得た。
論文 参考訳(メタデータ) (2025-05-17T04:09:46Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Can Large Language Models Be Trusted as Evolutionary Optimizers for Network-Structured Combinatorial Problems? [8.082897040940447]
大きな言語モデル(LLM)は、言語理解とさまざまなドメイン間の推論において素晴らしい能力を持っています。
本研究では,問題構造に係わるLLMの能力を評価するための体系的枠組みを提案する。
我々は,従来の個人レベルのアプローチと比較して,効率を著しく向上するコスト効率の高い集団レベルの最適化戦略を開発する。
論文 参考訳(メタデータ) (2025-01-25T05:19:19Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [66.9481561915524]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - Exploring Multi-Agent Reinforcement Learning for Unrelated Parallel Machine Scheduling [2.3034630097498883]
本研究は,強化学習環境を紹介し,実証分析を行う。
実験では、シングルエージェントとマルチエージェントアプローチにさまざまなディープニューラルネットワークポリシーを採用している。
シングルエージェントアルゴリズムは縮小シナリオにおいて適切に機能する一方、マルチエージェントアプローチは協調学習における課題を明らかにするが、スケーラブルな能力を示す。
論文 参考訳(メタデータ) (2024-11-12T08:27:27Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - MaCTG: Multi-Agent Collaborative Thought Graph for Automatic Programming [10.461509044478278]
MaCTG (MultiAgent Collaborative Thought Graph) は動的グラフ構造を用いる新しいマルチエージェントフレームワークである。
プログラム要求に基づいてエージェントロールを自律的に割り当て、タスクの分散を動的に洗練し、プロジェクトレベルのコードを体系的に検証し統合する。
MaCTGは既存のマルチエージェントフレームワークと比較して運用コストを89.09%削減した。
論文 参考訳(メタデータ) (2024-10-25T01:52:15Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。