論文の概要: Model-based Multi-agent Policy Optimization with Adaptive Opponent-wise
Rollouts
- arxiv url: http://arxiv.org/abs/2105.03363v1
- Date: Fri, 7 May 2021 16:20:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-10 14:16:23.264019
- Title: Model-based Multi-agent Policy Optimization with Adaptive Opponent-wise
Rollouts
- Title(参考訳): 適応型対数ロールアウトを用いたモデルベースマルチエージェントポリシー最適化
- Authors: Weinan Zhang, Xihuai Wang, Jian Shen, Ming Zhou
- Abstract要約: マルチエージェント強化学習(MARL)におけるモデルベース手法について検討する。
AORPO(Adaptive Opponent-wise Rollout Policy)と呼ばれる新しい分散型モデルベースのMARL法を提案する。
- 参考スコア(独自算出の注目度): 52.844741540236285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the model-based methods in multi-agent reinforcement
learning (MARL). We specify the dynamics sample complexity and the opponent
sample complexity in MARL, and conduct a theoretic analysis of return
discrepancy upper bound. To reduce the upper bound with the intention of low
sample complexity during the whole learning process, we propose a novel
decentralized model-based MARL method, named Adaptive Opponent-wise Rollout
Policy Optimization (AORPO). In AORPO, each agent builds its multi-agent
environment model, consisting of a dynamics model and multiple opponent models,
and trains its policy with the adaptive opponent-wise rollout. We further prove
the theoretic convergence of AORPO under reasonable assumptions. Empirical
experiments on competitive and cooperative tasks demonstrate that AORPO can
achieve improved sample efficiency with comparable asymptotic performance over
the compared MARL methods.
- Abstract(参考訳): 本稿では,マルチエージェント強化学習(MARL)におけるモデルベース手法について検討する。
我々は, MARLにおける動的サンプル複雑性と反対サンプル複雑性を規定し, 回帰差分上限の理論的解析を行う。
そこで本研究では,学習過程全体におけるサンプル複雑性の低減を目的として,適応的対向的ロールアウト政策最適化(aorpo)と呼ばれる分散モデルに基づくmarl法を提案する。
AORPOでは、各エージェントは動的モデルと複数の対戦モデルからなるマルチエージェント環境モデルを構築し、適応的対向的ロールアウトでポリシーを訓練する。
さらに、AORPOの理論的収束を合理的な仮定で証明する。
競合的および協調的なタスクに関する実証実験により、AORPOは比較したMARL法よりも漸近的な性能でサンプル効率を向上できることを示した。
関連論文リスト
- Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - Expensive Multi-Objective Bayesian Optimization Based on Diffusion Models [17.19004913553654]
多目的ベイズ最適化(MOBO)は、様々な高価な多目的最適化問題(EMOP)において有望な性能を示した。
高価なMOBOのための合成拡散モデルに基づくパレートセット学習アルゴリズム,すなわちCDM-PSLを提案する。
提案アルゴリズムは,様々な最先端MOBOアルゴリズムと比較して優れた性能が得られる。
論文 参考訳(メタデータ) (2024-05-14T14:55:57Z) - Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。
本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文 参考訳(メタデータ) (2024-02-08T14:54:47Z) - Sample-Efficient Multi-Agent RL: An Optimization Perspective [103.35353196535544]
一般関数近似に基づく汎用マルコフゲーム(MG)のためのマルチエージェント強化学習(MARL)について検討した。
汎用MGに対するマルチエージェントデカップリング係数(MADC)と呼ばれる新しい複雑性尺度を導入する。
我々のアルゴリズムは既存の研究に匹敵するサブリニアな後悔を与えることを示す。
論文 参考訳(メタデータ) (2023-10-10T01:39:04Z) - Learning Multiple Coordinated Agents under Directed Acyclic Graph
Constraints [20.45657219304883]
本稿では,有向非巡回グラフ(DAG)制約下で複数の協調エージェントを学習する新しいマルチエージェント強化学習(MARL)法を提案する。
既存のMARL手法とは異なり,本手法ではエージェント間のDAG構造を明示的に利用し,より効果的な学習性能を実現する。
論文 参考訳(メタデータ) (2023-07-13T13:41:24Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。