論文の概要: CCL: Collaborative Curriculum Learning for Sparse-Reward Multi-Agent Reinforcement Learning via Co-evolutionary Task Evolution
- arxiv url: http://arxiv.org/abs/2505.07854v1
- Date: Thu, 08 May 2025 04:23:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.224917
- Title: CCL: Collaborative Curriculum Learning for Sparse-Reward Multi-Agent Reinforcement Learning via Co-evolutionary Task Evolution
- Title(参考訳): CCL:共進化的タスク進化によるスパース・リワード多エージェント強化学習のための協調的カリキュラム学習
- Authors: Yufei Lin, Chengwei Ye, Huanzhen Zhang, Kangsheng Wang, Linuo Xu, Shuyan Liu, Zeyu Zhang,
- Abstract要約: スパース報酬環境は強化学習において特にマルチエージェントシステムにおいて重要な課題を生んでいる。
本研究では,(1)個別エージェントの中間タスクの精細化,(2)情報サブタスクを生成するための変分進化アルゴリズムの利用,(3)学習安定性を高めるための環境との共進化エージェントを用いた新しいカリキュラム学習フレームワークである協調多次元学習(CCL)を提案する。
- 参考スコア(独自算出の注目度): 4.0873807995771
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse reward environments pose significant challenges in reinforcement learning, especially within multi-agent systems (MAS) where feedback is delayed and shared across agents, leading to suboptimal learning. We propose Collaborative Multi-dimensional Course Learning (CCL), a novel curriculum learning framework that addresses this by (1) refining intermediate tasks for individual agents, (2) using a variational evolutionary algorithm to generate informative subtasks, and (3) co-evolving agents with their environment to enhance training stability. Experiments on five cooperative tasks in the MPE and Hide-and-Seek environments show that CCL outperforms existing methods in sparse reward settings.
- Abstract(参考訳): スパース報酬環境は、特にエージェント間でフィードバックが遅延し共有されるマルチエージェントシステム(MAS)において、強化学習において重大な課題を引き起こす。
本研究では,(1)個別エージェントの中間タスクの精細化,(2)情報サブタスクを生成するための変分進化アルゴリズムの利用,(3)学習安定性を高めるための環境との共進化エージェントを用いた新しいカリキュラム学習フレームワークである協調多次元学習(CCL)を提案する。
MPEとHie-and-Seek環境における5つの協調作業の実験により、CCLはスパース報酬設定において既存の手法よりも優れていたことが示された。
関連論文リスト
- LERO: LLM-driven Evolutionary framework with Hybrid Rewards and Enhanced Observation for Multi-Agent Reinforcement Learning [4.343021413805699]
マルチエージェント強化学習(MARL)は、シングルエージェントRLとは異なる2つの重要なボトルネックに直面している。
LEROは大規模言語モデル(LLM)と進化的最適化を統合し,これらのMARL固有の課題に対処するフレームワークである。
論文 参考訳(メタデータ) (2025-03-25T06:28:42Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Towards Skilled Population Curriculum for Multi-Agent Reinforcement
Learning [42.540853953923495]
我々は,カリキュラム学習をマルチエージェント協調に適応させる新しいカリキュラム学習フレームワーク,SPC(Skilled Population Curriculum)を導入する。
具体的には,集団不変のコミュニケーションと階層的スキルセットを学生に提供し,異なるタスクからさまざまなエージェントで協調と行動スキルを学習できるようにする。
また、このマルチエージェント自動カリキュラム教育問題の本質的非定常性を解析し、それに対応する後悔境界を提供する。
論文 参考訳(メタデータ) (2023-02-07T12:30:52Z) - Non-local Policy Optimization via Diversity-regularized Collaborative
Exploration [45.997521480637836]
多様性規則化協調探索(DiCE)と呼ばれる新しい非局所的政策最適化フレームワークを提案する。
DiCEは異種エージェントのグループを利用して環境を同時に探索し、収集した経験を共有する。
このフレームワークをオン・ポリティクスとオフ・ポリティクスの両方で実装し、実験結果から、DCEがベースラインよりも大幅に改善できることが示されている。
論文 参考訳(メタデータ) (2020-06-14T03:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。