論文の概要: CCL: Collaborative Curriculum Learning for Sparse-Reward Multi-Agent Reinforcement Learning via Co-evolutionary Task Evolution
- arxiv url: http://arxiv.org/abs/2505.07854v1
- Date: Thu, 08 May 2025 04:23:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.224917
- Title: CCL: Collaborative Curriculum Learning for Sparse-Reward Multi-Agent Reinforcement Learning via Co-evolutionary Task Evolution
- Title(参考訳): CCL:共進化的タスク進化によるスパース・リワード多エージェント強化学習のための協調的カリキュラム学習
- Authors: Yufei Lin, Chengwei Ye, Huanzhen Zhang, Kangsheng Wang, Linuo Xu, Shuyan Liu, Zeyu Zhang,
- Abstract要約: スパース報酬環境は強化学習において特にマルチエージェントシステムにおいて重要な課題を生んでいる。
本研究では,(1)個別エージェントの中間タスクの精細化,(2)情報サブタスクを生成するための変分進化アルゴリズムの利用,(3)学習安定性を高めるための環境との共進化エージェントを用いた新しいカリキュラム学習フレームワークである協調多次元学習(CCL)を提案する。
- 参考スコア(独自算出の注目度): 4.0873807995771
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse reward environments pose significant challenges in reinforcement learning, especially within multi-agent systems (MAS) where feedback is delayed and shared across agents, leading to suboptimal learning. We propose Collaborative Multi-dimensional Course Learning (CCL), a novel curriculum learning framework that addresses this by (1) refining intermediate tasks for individual agents, (2) using a variational evolutionary algorithm to generate informative subtasks, and (3) co-evolving agents with their environment to enhance training stability. Experiments on five cooperative tasks in the MPE and Hide-and-Seek environments show that CCL outperforms existing methods in sparse reward settings.
- Abstract(参考訳): スパース報酬環境は、特にエージェント間でフィードバックが遅延し共有されるマルチエージェントシステム(MAS)において、強化学習において重大な課題を引き起こす。
本研究では,(1)個別エージェントの中間タスクの精細化,(2)情報サブタスクを生成するための変分進化アルゴリズムの利用,(3)学習安定性を高めるための環境との共進化エージェントを用いた新しいカリキュラム学習フレームワークである協調多次元学習(CCL)を提案する。
MPEとHie-and-Seek環境における5つの協調作業の実験により、CCLはスパース報酬設定において既存の手法よりも優れていたことが示された。
関連論文リスト
- Omni-Thinker: Scaling Cross-Domain Generalization in LLMs via Multi-Task RL with Hybrid Rewards [50.21528417884747]
Omni-Thinkerは多種多様なタスクにわたる大規模言語モデル(LLM)の性能を向上させる統合強化学習フレームワークである。
我々の手法はタスクタイプを一貫した最適化を可能にし、RLベースのトレーニングを主観的ドメインに拡張する。
4つの領域にまたがる実験の結果、カリキュラムの学習は、ジョイントトレーニングよりも5.2%、モデルマージより9.1%向上していることがわかった。
論文 参考訳(メタデータ) (2025-07-20T01:50:16Z) - Curriculum Learning With Counterfactual Group Relative Policy Advantage For Multi-Agent Reinforcement Learning [15.539607264374242]
マルチエージェント強化学習 (MARL) は, 協調的対人作業において高い性能を示した。
本稿では,自己適応型難易度調整機構を用いた動的カリキュラム学習フレームワークを提案する。
本手法はトレーニングの安定性と最終性能を両立させ,最先端の手法と競合する結果を得る。
論文 参考訳(メタデータ) (2025-06-09T08:38:18Z) - Cross-Task Experiential Learning on LLM-based Multi-Agent Collaboration [63.90193684394165]
マルチエージェント・クロスタスク体験学習(MAEL)は,LSM駆動型エージェントに明示的なクロスタスク学習と経験蓄積を付与する新しいフレームワークである。
経験的学習フェーズでは、タスク解決ワークフローの各ステップの品質を定量化し、その結果の報酬を記憶する。
推論中、エージェントは、各推論ステップの有効性を高めるために、いくつかの例として、高頻度のタスク関連体験を検索する。
論文 参考訳(メタデータ) (2025-05-29T07:24:37Z) - Multi-Agent Collaboration via Evolving Orchestration [61.93162413517026]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な成果を上げているが、そのモノリシックな性質は複雑な問題解決におけるスケーラビリティと効率を制限している。
LLMをベースとしたマルチエージェントコラボレーションのためのパウチスタイルのパラダイムを提案し、中央オーケストレータがタスク状態の進化に応じてエージェントを動的に指示する。
クローズドドメインおよびオープンドメインシナリオの実験により,この手法は計算コストを低減し,優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2025-05-26T07:02:17Z) - LERO: LLM-driven Evolutionary framework with Hybrid Rewards and Enhanced Observation for Multi-Agent Reinforcement Learning [4.343021413805699]
マルチエージェント強化学習(MARL)は、シングルエージェントRLとは異なる2つの重要なボトルネックに直面している。
LEROは大規模言語モデル(LLM)と進化的最適化を統合し,これらのMARL固有の課題に対処するフレームワークである。
論文 参考訳(メタデータ) (2025-03-25T06:28:42Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Towards Skilled Population Curriculum for Multi-Agent Reinforcement
Learning [42.540853953923495]
我々は,カリキュラム学習をマルチエージェント協調に適応させる新しいカリキュラム学習フレームワーク,SPC(Skilled Population Curriculum)を導入する。
具体的には,集団不変のコミュニケーションと階層的スキルセットを学生に提供し,異なるタスクからさまざまなエージェントで協調と行動スキルを学習できるようにする。
また、このマルチエージェント自動カリキュラム教育問題の本質的非定常性を解析し、それに対応する後悔境界を提供する。
論文 参考訳(メタデータ) (2023-02-07T12:30:52Z) - Non-local Policy Optimization via Diversity-regularized Collaborative
Exploration [45.997521480637836]
多様性規則化協調探索(DiCE)と呼ばれる新しい非局所的政策最適化フレームワークを提案する。
DiCEは異種エージェントのグループを利用して環境を同時に探索し、収集した経験を共有する。
このフレームワークをオン・ポリティクスとオフ・ポリティクスの両方で実装し、実験結果から、DCEがベースラインよりも大幅に改善できることが示されている。
論文 参考訳(メタデータ) (2020-06-14T03:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。