論文の概要: Hierarchical Reinforcement Learning with Opponent Modeling for
Distributed Multi-agent Cooperation
- arxiv url: http://arxiv.org/abs/2206.12718v1
- Date: Sat, 25 Jun 2022 19:09:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-03 02:35:50.976643
- Title: Hierarchical Reinforcement Learning with Opponent Modeling for
Distributed Multi-agent Cooperation
- Title(参考訳): 分散マルチエージェント協調のための対戦モデルによる階層的強化学習
- Authors: Zhixuan Liang, Jiannong Cao, Shan Jiang, Divya Saxena, Huafeng Xu
- Abstract要約: 深層強化学習(DRL)はエージェントと環境の相互作用を通じて多エージェント協調に有望なアプローチを提供する。
従来のDRLソリューションは、ポリシー探索中に連続的なアクション空間を持つ複数のエージェントの高次元に悩まされる。
効率的な政策探索のための高レベル意思決定と低レベル個別制御を用いた階層型強化学習手法を提案する。
- 参考スコア(独自算出の注目度): 13.670618752160594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many real-world applications can be formulated as multi-agent cooperation
problems, such as network packet routing and coordination of autonomous
vehicles. The emergence of deep reinforcement learning (DRL) provides a
promising approach for multi-agent cooperation through the interaction of the
agents and environments. However, traditional DRL solutions suffer from the
high dimensions of multiple agents with continuous action space during policy
search. Besides, the dynamicity of agents' policies makes the training
non-stationary. To tackle the issues, we propose a hierarchical reinforcement
learning approach with high-level decision-making and low-level individual
control for efficient policy search. In particular, the cooperation of multiple
agents can be learned in high-level discrete action space efficiently. At the
same time, the low-level individual control can be reduced to single-agent
reinforcement learning. In addition to hierarchical reinforcement learning, we
propose an opponent modeling network to model other agents' policies during the
learning process. In contrast to end-to-end DRL approaches, our approach
reduces the learning complexity by decomposing the overall task into sub-tasks
in a hierarchical way. To evaluate the efficiency of our approach, we conduct a
real-world case study in the cooperative lane change scenario. Both simulation
and real-world experiments show the superiority of our approach in the
collision rate and convergence speed.
- Abstract(参考訳): 多くの実世界のアプリケーションは、ネットワークパケットルーティングや自動運転車の協調といったマルチエージェント協調問題として定式化することができる。
深層強化学習(DRL)の出現はエージェントと環境の相互作用を通じて多エージェント協調に有望なアプローチを提供する。
しかし、従来のDRLソリューションはポリシー探索中に連続的なアクション空間を持つ複数のエージェントの高次元に悩まされる。
さらに、エージェントのポリシーのダイナミック性はトレーニングを非定常にする。
そこで本研究では,高水準意思決定と低レベル個別制御を用いた階層的強化学習手法を提案する。
特に、複数のエージェントの協調は、ハイレベルな離散アクション空間において効率的に学習することができる。
同時に、低レベルの個別制御を単エージェント強化学習に還元することができる。
階層的強化学習に加えて,学習プロセス中に他のエージェントのポリシーをモデル化する対戦型モデリングネットワークを提案する。
エンドツーエンドのDRLアプローチとは対照的に,本手法では,タスク全体を階層的な方法でサブタスクに分解することで,学習の複雑さを低減する。
提案手法の効率性を評価するため,協調車線変更シナリオにおいて実世界の事例スタディを行う。
シミュレーションと実世界の実験は、衝突速度と収束速度における我々のアプローチの優位性を示している。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Learning Emergence of Interaction Patterns across Independent RL Agents in Multi-Agent Environments [3.0284592792243794]
ボトムアップネットワーク(BUN)は、マルチエージェントの集合を統一エンティティとして扱う。
協調ナビゲーションやトラヒックコントロールなどのタスクを含む,さまざまな協調型マルチエージェントシナリオに対する実証的な評価は,BUNが計算コストを大幅に削減したベースライン手法よりも優れていることを一貫して証明している。
論文 参考訳(メタデータ) (2024-10-03T14:25:02Z) - Decentralized and Lifelong-Adaptive Multi-Agent Collaborative Learning [57.652899266553035]
分散型および生涯適応型多エージェント協調学習は、中央サーバを使わずに複数のエージェント間のコラボレーションを強化することを目的としている。
動的協調グラフを用いた分散マルチエージェント生涯協調学習アルゴリズムであるDeLAMAを提案する。
論文 参考訳(メタデータ) (2024-03-11T09:21:11Z) - Effective Multi-Agent Deep Reinforcement Learning Control with Relative
Entropy Regularization [6.441951360534903]
複数のエージェントによって制御される様々なシナリオにおいて、限られた能力とサンプル効率の問題に取り組むために、Multi-Agent Continuous Dynamic Policy Gradient (MACDPP)が提案された。
複数のエージェントのポリシー更新の不整合を緩和するために、アクター・クリティカル(AC)構造を持つ分散実行トレーニング(CTDE)フレームワークに相対エントロピー正規化を導入する。
論文 参考訳(メタデータ) (2023-09-26T07:38:19Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Coach-assisted Multi-Agent Reinforcement Learning Framework for
Unexpected Crashed Agents [120.91291581594773]
本稿では,予期せぬクラッシュを伴う協調型マルチエージェント強化学習システムの公式な定式化について述べる。
本稿では,教師支援型多エージェント強化学習フレームワークを提案する。
私たちの知る限りでは、この研究はマルチエージェントシステムにおける予期せぬクラッシュを初めて研究したものです。
論文 参考訳(メタデータ) (2022-03-16T08:22:45Z) - Semantic-Aware Collaborative Deep Reinforcement Learning Over Wireless
Cellular Networks [82.02891936174221]
複数のエージェントが無線ネットワーク上で協調できるコラボレーティブディープ強化学習(CDRL)アルゴリズムは有望なアプローチである。
本稿では,リソース制約のある無線セルネットワーク上で,意味的にリンクされたDRLタスクを持つ未学習エージェントのグループを効率的に協調させる,新しい意味認識型CDRL手法を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:24:47Z) - Relative Distributed Formation and Obstacle Avoidance with Multi-agent
Reinforcement Learning [20.401609420707867]
マルチエージェント強化学習(MARL)に基づく分散生成・障害物回避手法を提案する。
提案手法は, 障害物回避における生成誤差, 生成収束率, オンパー成功率に関して, ベースラインと比較して高い性能を実現する。
論文 参考訳(メタデータ) (2021-11-14T13:02:45Z) - HAVEN: Hierarchical Cooperative Multi-Agent Reinforcement Learning with
Dual Coordination Mechanism [17.993973801986677]
多エージェント強化学習はしばしば、多数のエージェントによって引き起こされる指数関数的に大きな作用空間に悩まされる。
完全協調型マルチエージェント問題に対する階層的強化学習に基づく新しい値分解フレームワークHAVENを提案する。
論文 参考訳(メタデータ) (2021-10-14T10:43:47Z) - Learning Efficient Multi-Agent Cooperative Visual Exploration [18.42493808094464]
複数のエージェントによる視覚的屋内探索の課題を考察し、エージェントはできるだけ少ないステップで屋内全領域を探索する必要がある。
我々は、最先端の単一エージェントRLソリューションであるActive Neural SLAM(ANS)を、新しいRLベースのグローバルゴールプランナーであるSpatial Coordination Planner(SCP)を導入してマルチエージェント設定に拡張する。
SCPは、各エージェントの空間情報をエンドツーエンドに活用し、探索効率の高い異なる空間目標に向けて効果的にエージェントを誘導する。
論文 参考訳(メタデータ) (2021-10-12T04:48:10Z) - Multi-Agent Interactions Modeling with Correlated Policies [53.38338964628494]
本稿では,マルチエージェントインタラクションモデリング問題をマルチエージェント模倣学習フレームワークに実装する。
相関ポリシー(CoDAIL)を用いた分散型適応模倣学習アルゴリズムの開発
様々な実験により、CoDAILはデモレーターに近い複雑な相互作用をより良く再生できることが示されている。
論文 参考訳(メタデータ) (2020-01-04T17:31:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。