論文の概要: Curriculum Learning With Counterfactual Group Relative Policy Advantage For Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.07548v1
- Date: Mon, 09 Jun 2025 08:38:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.867552
- Title: Curriculum Learning With Counterfactual Group Relative Policy Advantage For Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習のための対実的グループ相対的政策アドバンテージを用いたカリキュラム学習
- Authors: Weiqiang Jin, Hongyang Du, Guizhong Liu, Dong In Kim,
- Abstract要約: マルチエージェント強化学習 (MARL) は, 協調的対人作業において高い性能を示した。
本稿では,自己適応型難易度調整機構を用いた動的カリキュラム学習フレームワークを提案する。
本手法はトレーニングの安定性と最終性能を両立させ,最先端の手法と競合する結果を得る。
- 参考スコア(独自算出の注目度): 15.539607264374242
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent reinforcement learning (MARL) has achieved strong performance in cooperative adversarial tasks. However, most existing methods typically train agents against fixed opponent strategies and rely on such meta-static difficulty conditions, which limits their adaptability to changing environments and often leads to suboptimal policies. Inspired by the success of curriculum learning (CL) in supervised tasks, we propose a dynamic CL framework for MARL that employs an self-adaptive difficulty adjustment mechanism. This mechanism continuously modulates opponent strength based on real-time agent training performance, allowing agents to progressively learn from easier to more challenging scenarios. However, the dynamic nature of CL introduces instability due to nonstationary environments and sparse global rewards. To address this challenge, we develop a Counterfactual Group Relative Policy Advantage (CGRPA), which is tightly coupled with the curriculum by providing intrinsic credit signals that reflect each agent's impact under evolving task demands. CGRPA constructs a counterfactual advantage function that isolates individual contributions within group behavior, facilitating more reliable policy updates throughout the curriculum. CGRPA evaluates each agent's contribution through constructing counterfactual action advantage function, providing intrinsic rewards that enhance credit assignment and stabilize learning under non-stationary conditions. Extensive experiments demonstrate that our method improves both training stability and final performance, achieving competitive results against state-of-the-art methods. The code is available at https://github.com/NICE-HKU/CL2MARL-SMAC.
- Abstract(参考訳): マルチエージェント強化学習 (MARL) は, 協調的対人作業において高い性能を示した。
しかし、既存のほとんどの手法は、通常、固定された相手戦略に対してエージェントを訓練し、そのようなメタスタティックな困難条件に依存し、環境の変化への適応性を制限し、しばしば準最適政策につながる。
教師付きタスクにおけるカリキュラム学習(CL)の成功に触発されて,自己適応的難易度調整機構を用いたMARLのための動的CLフレームワークを提案する。
このメカニズムは、リアルタイムエージェントトレーニングのパフォーマンスに基づいて、対戦相手の強度を継続的に調整し、エージェントがより容易からより困難なシナリオから徐々に学習できるようにする。
しかし、CLの動的性質は、非定常環境と疎大な報酬による不安定性をもたらす。
この課題に対処するため、我々はCGRPA(Counterfactual Group Relative Policy Advantage)を開発した。
CGRPAは、グループ行動内で個々のコントリビューションを分離し、カリキュラム全体を通してより信頼性の高いポリシー更新を容易にする、対実的なアドバンテージ機能を構築する。
CGRPAは、非定常条件下での学習を安定化させ、クレジット割り当てを強化する本質的な報酬を提供する反実的行動優位関数を構築することによって、各エージェントの貢献を評価する。
実験の結果,本手法はトレーニングの安定性と最終性能を両立させ,最先端の手法と競合する結果を得ることができた。
コードはhttps://github.com/NICE-HKU/CL2MARL-SMACで公開されている。
関連論文リスト
- Action-Adaptive Continual Learning: Enabling Policy Generalization under Dynamic Action Spaces [16.07372335607339]
連続学習(CL)は、エージェントが一連のタスクを学習できる強力なツールである。
既存のCLメソッドは、エージェントの能力が動的環境の中で静的であると仮定することが多い。
本稿では,この課題に対処する行動適応型連続学習フレームワーク(AACL)を提案する。
論文 参考訳(メタデータ) (2025-06-06T03:07:30Z) - Fast Adaptation with Behavioral Foundation Models [82.34700481726951]
教師なしゼロショット強化学習は、行動基礎モデルの事前学習のための強力なパラダイムとして登場した。
有望な結果にもかかわらず、ゼロショットポリシーは、教師なしのトレーニングプロセスによって引き起こされるエラーにより、しばしば準最適である。
本稿では,事前訓練されたBFMの低次元タスク埋め込み空間を探索し,ゼロショットポリシーの性能を急速に向上させる高速適応手法を提案する。
論文 参考訳(メタデータ) (2025-04-10T16:14:17Z) - COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping [56.907940167333656]
集積ロボットグルーピングは、表面衝突などの環境制約により、所望のグルーピングポーズが運動的に不可能な場所である。
従来のロボット操作アプローチは、人間が一般的に使用する非包括的または双対的戦略の複雑さに苦しむ。
本稿では,2つの協調ポリシーを活用する学習ベースアプローチであるCOMBO-Grasp(Constraint-based Manipulation for Bimanual Occluded Grasping)を紹介する。
論文 参考訳(メタデータ) (2025-02-12T01:31:01Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - Coherent Soft Imitation Learning [17.345411907902932]
模倣学習法は、政策の行動クローニング(BC)や報酬の逆強化学習(IRL)を通じて専門家から学ぶ。
この研究は、BCとIRLの両方の強度を捉える模倣法に由来する。
論文 参考訳(メタデータ) (2023-05-25T21:54:22Z) - Towards Skilled Population Curriculum for Multi-Agent Reinforcement
Learning [42.540853953923495]
我々は,カリキュラム学習をマルチエージェント協調に適応させる新しいカリキュラム学習フレームワーク,SPC(Skilled Population Curriculum)を導入する。
具体的には,集団不変のコミュニケーションと階層的スキルセットを学生に提供し,異なるタスクからさまざまなエージェントで協調と行動スキルを学習できるようにする。
また、このマルチエージェント自動カリキュラム教育問題の本質的非定常性を解析し、それに対応する後悔境界を提供する。
論文 参考訳(メタデータ) (2023-02-07T12:30:52Z) - Unified Policy Optimization for Continuous-action Reinforcement Learning
in Non-stationary Tasks and Games [6.196828712245427]
本稿では,非定常環境における学習と,継続的な行動を伴うゲームについて述べる。
我々は, PORL が最終項目収束アルゴリズムを持つことを証明し, 対戦ゲームや協調ゲームにおいて重要である。
論文 参考訳(メタデータ) (2022-08-19T17:12:31Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。