論文の概要: RPM: Generalizable Behaviors for Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2210.09646v1
- Date: Tue, 18 Oct 2022 07:32:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 14:03:06.890138
- Title: RPM: Generalizable Behaviors for Multi-Agent Reinforcement Learning
- Title(参考訳): rpm:多エージェント強化学習のための一般化行動
- Authors: Wei Qiu, Xiao Ma, Bo An, Svetlana Obraztsova, Shuicheng Yan, Zhongwen
Xu
- Abstract要約: 本稿では,MARLポリシーを総合性良く訓練するための多様なマルチエージェントトラジェクトリを収集するために,ランク付けされたポリシーメモリ(RPM)を提案する。
RPMにより、マルチエージェントの一般化評価シナリオと完全なタスクにおいて、MARLエージェントが未確認エージェントと対話することが可能になり、平均402%のパフォーマンスが大幅に向上する。
- 参考スコア(独自算出の注目度): 90.43925357575543
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the recent advancement in multi-agent reinforcement learning (MARL),
the MARL agents easily overfit the training environment and perform poorly in
the evaluation scenarios where other agents behave differently. Obtaining
generalizable policies for MARL agents is thus necessary but challenging mainly
due to complex multi-agent interactions. In this work, we model the problem
with Markov Games and propose a simple yet effective method, ranked policy
memory (RPM), to collect diverse multi-agent trajectories for training MARL
policies with good generalizability. The main idea of RPM is to maintain a
look-up memory of policies. In particular, we try to acquire various levels of
behaviors by saving policies via ranking the training episode return, i.e., the
episode return of agents in the training environment; when an episode starts,
the learning agent can then choose a policy from the RPM as the behavior
policy. This innovative self-play training framework leverages agents' past
policies and guarantees the diversity of multi-agent interaction in the
training data. We implement RPM on top of MARL algorithms and conduct extensive
experiments on Melting Pot. It has been demonstrated that RPM enables MARL
agents to interact with unseen agents in multi-agent generalization evaluation
scenarios and complete given tasks, and it significantly boosts the performance
up to 402% on average.
- Abstract(参考訳): 近年のマルチエージェント強化学習(MARL)の進歩にもかかわらず、MARLエージェントはトレーニング環境に容易に適合し、他のエージェントが異なる振る舞いをする評価シナリオでは不十分である。
したがって、MARLエージェントの一般化可能なポリシーは必要であるが、主に複雑なマルチエージェント相互作用のために困難である。
本研究では,マルコフゲームにおける問題をモデル化し,MARLポリシーを高い一般化性で訓練するための多様なマルチエージェントトラジェクトリを収集する簡易かつ効果的な方法であるランキングポリシーメモリ(RPM)を提案する。
RPMの主な考え方は、ポリシーのルックアップメモリを維持することです。
特に、トレーニングエピソードリターン、すなわちトレーニング環境におけるエージェントのリターンをランク付けすることで、さまざまなレベルの行動を取得しようと試み、エピソードが開始されると、学習エージェントは行動ポリシーとしてRPMからポリシーを選択することができる。
この革新的なセルフプレイトレーニングフレームワークは、エージェントの過去のポリシーを活用し、トレーニングデータにおけるマルチエージェントインタラクションの多様性を保証する。
marlアルゴリズム上にrpmを実装し,融解鍋に関する広範囲な実験を行った。
RPMにより、マルチエージェントの一般化評価シナリオや与えられたタスクにおいて、MARLエージェントが未確認エージェントと対話することができ、平均402%のパフォーマンスが大幅に向上することが示されている。
関連論文リスト
- PPS-QMIX: Periodically Parameter Sharing for Accelerating Convergence of
Multi-Agent Reinforcement Learning [20.746383793882984]
マルチエージェント強化学習(MARL)の訓練は時間を要するプロセスである。
1つの欠点は、MARLの各エージェントの戦略が独立しているが、実際に協力していることである。
本稿では,A-PPS(Average Sharing),Reward-Scalability Periodically,Partial Personalized Periodicallyという3つの簡単なアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-05T03:59:01Z) - Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization [53.510942601223626]
大規模言語モデル(LLM)は多様なタスクに対して堅牢な問題解決能力を示す。
これらのタスクソルバは、タスクルールを通知し、行動を調整するために手作業によるプロンプトを必要とする。
本稿では,ポリシーレベルのリフレクションと最適化を備えた LLM ベースのエージェントである Agent-Pro を提案する。
論文 参考訳(メタデータ) (2024-02-27T15:09:20Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent
RL [107.58821842920393]
我々はエージェントの行動差を定量化し、bfロールの多様性を通して政策パフォーマンスとの関係を構築する
MARLの誤差は, 役割多様性と強い関係を持つ3つの部分に分けられる。
分解された要因は3つの一般的な方向における政策最適化に大きな影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-06-01T04:58:52Z) - Learning Meta Representations for Agents in Multi-Agent Reinforcement
Learning [12.170248966278281]
多エージェント強化学習では、エージェントが1つのマルコフゲーム(MG)で学習する振る舞いは、通常、与えられたエージェント番号に制限される。
本研究は,人口変動型MGを対象とするエージェントの創出に焦点をあてる。
一元的なポリシーを学ぶ代わりに、各エージェントは、様々なゲームにまたがる効果的な戦略を構成するポリシーセットを学ぶ。
論文 参考訳(メタデータ) (2021-08-30T04:30:53Z) - A Policy Gradient Algorithm for Learning to Learn in Multiagent
Reinforcement Learning [47.154539984501895]
本稿では,マルチエージェント学習環境に固有の非定常的ポリシーダイナミクスを考慮に入れたメタマルチエージェントポリシー勾配定理を提案する。
これは、エージェント自身の非定常ポリシーダイナミクスと、環境内の他のエージェントの非定常ポリシーダイナミクスの両方を考慮するために、勾配更新をモデル化することによって達成される。
論文 参考訳(メタデータ) (2020-10-31T22:50:21Z) - Parallel Knowledge Transfer in Multi-Agent Reinforcement Learning [0.2538209532048867]
本稿では,MARL(Parallel Attentional Transfer)における新しい知識伝達フレームワークを提案する。
PAT,学生モード,自己学習モードの2つの動作モードを設計する。
エージェントが環境に不慣れな場合、学生モードにおける共有注意機構は、エージェントの行動を決定するために、他のエージェントからの学習知識を効果的に選択する。
論文 参考訳(メタデータ) (2020-03-29T17:42:00Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z) - Scalable Multi-Agent Inverse Reinforcement Learning via
Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。
本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-24T20:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。