論文の概要: Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2211.15612v1
- Date: Mon, 28 Nov 2022 18:11:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 19:51:22.985039
- Title: Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning
- Title(参考訳): オフラインマルチエージェント強化学習における良い軌道からの学習
- Authors: Qi Tian, Kun Kuang, Furui Liu, Baoxiang Wang
- Abstract要約: オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 98.07495732562654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline multi-agent reinforcement learning (MARL) aims to learn effective
multi-agent policies from pre-collected datasets, which is an important step
toward the deployment of multi-agent systems in real-world applications.
However, in practice, each individual behavior policy that generates
multi-agent joint trajectories usually has a different level of how well it
performs. e.g., an agent is a random policy while other agents are medium
policies. In the cooperative game with global reward, one agent learned by
existing offline MARL often inherits this random policy, jeopardizing the
performance of the entire team. In this paper, we investigate offline MARL with
explicit consideration on the diversity of agent-wise trajectories and propose
a novel framework called Shared Individual Trajectories (SIT) to address this
problem. Specifically, an attention-based reward decomposition network assigns
the credit to each agent through a differentiable key-value memory mechanism in
an offline manner. These decomposed credits are then used to reconstruct the
joint offline datasets into prioritized experience replay with individual
trajectories, thereafter agents can share their good trajectories and
conservatively train their policies with a graph attention network (GAT) based
critic. We evaluate our method in both discrete control (i.e., StarCraft II and
multi-agent particle environment) and continuous control (i.e, multi-agent
mujoco). The results indicate that our method achieves significantly better
results in complex and mixed offline multi-agent datasets, especially when the
difference of data quality between individual trajectories is large.
- Abstract(参考訳): オフラインマルチエージェント強化学習(marl: offline multi-agent reinforcement learning)は、事前収集されたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
しかし、実際には、複数エージェントのジョイントトラジェクタを生成する個々の行動ポリシーは、通常、そのパフォーマンスのレベルが異なる。
例えば、エージェントはランダムポリシーであり、他のエージェントはメディアポリシーである。
グローバルな報酬を伴う協調ゲームでは、既存のオフラインMARLによって学習されたエージェントが、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを危うくする。
本稿では,エージェントワイドトラジェクトリの多様性を明確に考慮したオフラインMARLを調査し,この問題に対処するための共有個人トラジェクトリ(SIT)と呼ばれる新しいフレームワークを提案する。
具体的には、注目ベースの報酬分解ネットワークは、異なるキー値記憶機構を介して各エージェントにオフラインでクレジットを割り当てる。
これらの分解クレジットは、オフラインデータセットを個別の軌道と優先順位付けされた体験リプレイに再構築するために使用され、その後エージェントは良い軌道を共有し、グラフアテンションネットワーク(gat)ベースの批評家と保守的にポリシーを訓練することができる。
離散制御(starcraft iiおよびmulti-agent particle environment)と連続制御(multi-agent mujoco)の両方において,本手法を評価した。
提案手法は,複雑なオフラインマルチエージェントデータセットにおいて,特に個々のトラクタ間のデータ品質の差が大きい場合に,より優れた結果が得られることを示す。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Learning Emergence of Interaction Patterns across Independent RL Agents in Multi-Agent Environments [3.0284592792243794]
ボトムアップネットワーク(BUN)は、マルチエージェントの集合を統一エンティティとして扱う。
協調ナビゲーションやトラヒックコントロールなどのタスクを含む,さまざまな協調型マルチエージェントシナリオに対する実証的な評価は,BUNが計算コストを大幅に削減したベースライン手法よりも優れていることを一貫して証明している。
論文 参考訳(メタデータ) (2024-10-03T14:25:02Z) - ComaDICE: Offline Cooperative Multi-Agent Reinforcement Learning with Stationary Distribution Shift Regularization [11.620274237352026]
オフライン強化学習(RL)は、事前に収集されたデータセットから効果的なポリシーを学習する能力において、大きな注目を集めている。
MARLは、大きな結合状態-作用空間とマルチエージェントの振る舞いの複雑さにより、さらなる課題を提起する。
定常分布空間に正規化器を導入し、分布シフトをよりよく処理する。
論文 参考訳(メタデータ) (2024-10-02T18:56:10Z) - Offline Multi-Agent Reinforcement Learning with Implicit Global-to-Local
Value Regularization [23.416448404647305]
OMIGAは、暗黙のグローバル-ローカル-ローカル v alue 正規化を備えた新しいオフライン m ulti-agent RL アルゴリズムである。
OMIGAは、ほぼ全てのタスクにおいて、最先端のオフラインMARL法よりも優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-07-21T14:37:54Z) - MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
拡散モデル(DM)は、最近オフライン強化学習を含む様々なシナリオで大きな成功を収めた。
この問題に対処する新しい生成型マルチエージェント学習フレームワークであるMADiffを提案する。
本実験は,マルチエージェント学習タスクにおけるベースラインアルゴリズムと比較して,MADiffの優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-27T02:14:09Z) - RPM: Generalizable Behaviors for Multi-Agent Reinforcement Learning [90.43925357575543]
本稿では,MARLポリシーを総合性良く訓練するための多様なマルチエージェントトラジェクトリを収集するために,ランク付けされたポリシーメモリ(RPM)を提案する。
RPMにより、マルチエージェントの一般化評価シナリオと完全なタスクにおいて、MARLエージェントが未確認エージェントと対話することが可能になり、平均402%のパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2022-10-18T07:32:43Z) - Plan Better Amid Conservatism: Offline Multi-Agent Reinforcement
Learning with Actor Rectification [74.10976684469435]
オフライン強化学習(RL)アルゴリズムは、直接マルチエージェント設定に転送することができる。
本稿では,この重要な課題に対処するために,Actor Rectification (OMAR) を用いたオフラインマルチエージェント RL を提案する。
OMARはマルチエージェント連続制御ベンチマークにおける最先端性能と強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2021-11-22T13:27:42Z) - AoI-Aware Resource Allocation for Platoon-Based C-V2X Networks via
Multi-Agent Multi-Task Reinforcement Learning [22.890835786710316]
本稿は,小隊の無線リソース管理を意識した情報年齢(AoI)の問題について検討する。
複数の自律型プラトンは、C-V2X通信技術を利用して、協力的認識メッセージ(CAM)をフォロワーに広める。
我々は,マルチエージェント強化学習(marl)に基づく分散リソース割当フレームワークを活用し,各小隊リーダ(pl)がエージェントとして行動し,環境と相互作用して最適方針を学ぶ。
論文 参考訳(メタデータ) (2021-05-10T08:39:56Z) - Scalable Multi-Agent Inverse Reinforcement Learning via
Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。
本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-24T20:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。