論文の概要: Regularize! Don't Mix: Multi-Agent Reinforcement Learning without
Explicit Centralized Structures
- arxiv url: http://arxiv.org/abs/2109.09038v1
- Date: Sun, 19 Sep 2021 00:58:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 16:43:08.315955
- Title: Regularize! Don't Mix: Multi-Agent Reinforcement Learning without
Explicit Centralized Structures
- Title(参考訳): 正規化!
Don't Mix: 明示的な集中構造を持たないマルチエージェント強化学習
- Authors: Chapman Siu, Jason Traish, Richard Yi Da Xu
- Abstract要約: Em Multi-Agent Regularized Q-learning (MARQ) と呼ばれる明示的な協調構造を学習するのではなく、正規化を用いたマルチエージェント強化学習を提案する。
提案アルゴリズムは,複数のベンチマークマルチエージェント環境において評価され,MARQが複数のベースラインや最先端のアルゴリズムより一貫して優れていることを示す。
- 参考スコア(独自算出の注目度): 8.883885464358737
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose using regularization for Multi-Agent Reinforcement Learning rather
than learning explicit cooperative structures called {\em Multi-Agent
Regularized Q-learning} (MARQ). Many MARL approaches leverage centralized
structures in order to exploit global state information or removing
communication constraints when the agents act in a decentralized manner.
Instead of learning redundant structures which is removed during agent
execution, we propose instead to leverage shared experiences of the agents to
regularize the individual policies in order to promote structured exploration.
We examine several different approaches to how MARQ can either explicitly or
implicitly regularize our policies in a multi-agent setting. MARQ aims to
address these limitations in the MARL context through applying regularization
constraints which can correct bias in off-policy out-of-distribution agent
experiences and promote diverse exploration. Our algorithm is evaluated on
several benchmark multi-agent environments and we show that MARQ consistently
outperforms several baselines and state-of-the-art algorithms; learning in
fewer steps and converging to higher returns.
- Abstract(参考訳): 本稿では,MARQ(Multi-Agent Regularized Q-learning)と呼ばれる明示的な協調構造を学習するのではなく,正規化を用いたマルチエージェント強化学習を提案する。
多くのMARLアプローチは、グローバルな状態情報を利用したり、エージェントが分散的に振る舞うときに通信制約を取り除くために集中的な構造を利用する。
エージェントの実行中に削除される冗長な構造を学習する代わりに、エージェントの共有経験を利用して個々のポリシーを規則化し、構造化された探索を促進することを提案する。
我々は、MARQがマルチエージェント設定でポリシーを明示的にあるいは暗黙的に正規化する方法について、いくつかの異なるアプローチを検討する。
MARQは、これらの制限をMARLコンテキストで解決することを目的としており、正規化制約を適用し、オフ・ポリティクス・アウト・オブ・ディストリビューション・エージェントの経験のバイアスを補正し、多様な探索を促進する。
提案手法は複数のベンチマークマルチエージェント環境において評価され,複数のベースラインと最先端アルゴリズムを一貫して上回っており,より少ないステップで学習し,高いリターンに収束する。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - ComaDICE: Offline Cooperative Multi-Agent Reinforcement Learning with Stationary Distribution Shift Regularization [11.620274237352026]
オフライン強化学習(RL)は、事前に収集されたデータセットから効果的なポリシーを学習する能力において、大きな注目を集めている。
MARLは、大きな結合状態-作用空間とマルチエージェントの振る舞いの複雑さにより、さらなる課題を提起する。
定常分布空間に正規化器を導入し、分布シフトをよりよく処理する。
論文 参考訳(メタデータ) (2024-10-02T18:56:10Z) - Deep Multi-Agent Reinforcement Learning for Decentralized Active
Hypothesis Testing [11.639503711252663]
我々は,深層多エージェント強化学習の枠組みに根ざした新しいアルゴリズムを導入することで,マルチエージェント能動仮説テスト(AHT)問題に取り組む。
エージェントが協調戦略を学習し、性能を向上させる能力を効果的に示す実験結果を包括的に提示する。
論文 参考訳(メタデータ) (2023-09-14T01:18:04Z) - SACHA: Soft Actor-Critic with Heuristic-Based Attention for Partially
Observable Multi-Agent Path Finding [3.4260993997836753]
我々は,ヒューリスティック・ベース・アテンション(SACHA)を用いたソフト・アクター・クリティカル(Soft Actor-Critic)と呼ばれる新しいマルチエージェント・アクター・クリティカルな手法を提案する。
SACHAは、各エージェントが最短経路ガイダンスに選択的に注目するニューラルネットワークを、その視野内の複数のエージェントから学習する。
我々は、いくつかの最先端の学習ベースMAPF法に対して、成功率とソリューション品質に関して、良好な改善を示す。
論文 参考訳(メタデータ) (2023-07-05T23:36:33Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - RPM: Generalizable Behaviors for Multi-Agent Reinforcement Learning [90.43925357575543]
本稿では,MARLポリシーを総合性良く訓練するための多様なマルチエージェントトラジェクトリを収集するために,ランク付けされたポリシーメモリ(RPM)を提案する。
RPMにより、マルチエージェントの一般化評価シナリオと完全なタスクにおいて、MARLエージェントが未確認エージェントと対話することが可能になり、平均402%のパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2022-10-18T07:32:43Z) - Centralized Training with Hybrid Execution in Multi-Agent Reinforcement
Learning [7.163485179361718]
マルチエージェント強化学習(MARL)におけるハイブリッド実行の導入
MARLは、エージェントが任意の通信レベルを持つ協調タスクを実行時に完了させることを目標とする新しいパラダイムである。
我々は,自動回帰予測モデルを用いたMAROを集中的に訓練し,行方不明者の観察を推定する手法を提案する。
論文 参考訳(メタデータ) (2022-10-12T14:58:32Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z) - A Policy Gradient Algorithm for Learning to Learn in Multiagent
Reinforcement Learning [47.154539984501895]
本稿では,マルチエージェント学習環境に固有の非定常的ポリシーダイナミクスを考慮に入れたメタマルチエージェントポリシー勾配定理を提案する。
これは、エージェント自身の非定常ポリシーダイナミクスと、環境内の他のエージェントの非定常ポリシーダイナミクスの両方を考慮するために、勾配更新をモデル化することによって達成される。
論文 参考訳(メタデータ) (2020-10-31T22:50:21Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。