論文の概要: Latent Interactive A2C for Improved RL in Open Many-Agent Systems
- arxiv url: http://arxiv.org/abs/2305.05159v1
- Date: Tue, 9 May 2023 04:03:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 13:54:47.912545
- Title: Latent Interactive A2C for Improved RL in Open Many-Agent Systems
- Title(参考訳): オープン多エージェントシステムにおけるRL改善のための潜在対話型A2C
- Authors: Keyang He, Prashant Doshi, Bikramjit Banerjee
- Abstract要約: 対話的アドバンテージアクター批評家(IA2C)は、分散トレーニングと分散実行に従事している。
本稿では,エンコーダ・デコーダアーキテクチャを用いて隠れ状態と他のエージェントの動作の潜在表現を学習する潜時IA2Cを提案する。
2つのドメイン(それぞれ多くのエージェントが居住している)における実験により、潜伏型IA2Cは分散を低減し、より速く収束することにより、試料効率を著しく向上することが明らかとなった。
- 参考スコア(独自算出の注目度): 12.41853254173419
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is a prevalence of multiagent reinforcement learning (MARL) methods
that engage in centralized training. But, these methods involve obtaining
various types of information from the other agents, which may not be feasible
in competitive or adversarial settings. A recent method, the interactive
advantage actor critic (IA2C), engages in decentralized training coupled with
decentralized execution, aiming to predict the other agents' actions from
possibly noisy observations. In this paper, we present the latent IA2C that
utilizes an encoder-decoder architecture to learn a latent representation of
the hidden state and other agents' actions. Our experiments in two domains --
each populated by many agents -- reveal that the latent IA2C significantly
improves sample efficiency by reducing variance and converging faster.
Additionally, we introduce open versions of these domains where the agent
population may change over time, and evaluate on these instances as well.
- Abstract(参考訳): 集中型トレーニングを行うマルチエージェント強化学習(marl)手法が普及している。
しかし、これらの方法には他のエージェントから様々な種類の情報を取得することが含まれており、競合や敵対的な設定では実現不可能である。
最近の方法であるinteractive advantage actor critic(ia2c)は、分散実行と並行して分散トレーニングを行い、他のエージェントの行動を潜在的に騒がしい観察から予測することを目的としている。
本稿では,エンコーダ・デコーダアーキテクチャを用いて隠れ状態やその他のエージェントの動作の潜在表現を学習する潜時IA2Cを提案する。
多数のエージェントが居住する2つの領域における実験により,潜伏型IA2Cは分散の低減と収束の高速化により試料効率を著しく向上することが明らかとなった。
さらに,エージェントの個体数が時間とともに変化する可能性のあるこれらのドメインのオープンバージョンを導入し,これらのインスタンスについても評価する。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - MA2CL:Masked Attentive Contrastive Learning for Multi-Agent
Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。
MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。
提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2023-06-03T05:32:19Z) - MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
拡散モデル(DM)は、最近オフライン強化学習を含む様々なシナリオで大きな成功を収めた。
この問題に対処する新しい生成型マルチエージェント学習フレームワークであるMADiffを提案する。
本実験は,マルチエージェント学習タスクにおけるベースラインアルゴリズムと比較して,MADiffの優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-27T02:14:09Z) - Beyond Rewards: a Hierarchical Perspective on Offline Multiagent
Behavioral Analysis [14.656957226255628]
本稿では,マルチエージェント領域における行動クラスタの発見のためのモデルに依存しない手法を提案する。
我々のフレームワークはエージェントの基盤となる学習アルゴリズムを前提とせず、潜伏状態やモデルへのアクセスを必要とせず、完全にオフラインで観察データを使って訓練することができる。
論文 参考訳(メタデータ) (2022-06-17T23:07:33Z) - Recursive Reasoning Graph for Multi-Agent Reinforcement Learning [44.890087638530524]
マルチエージェント強化学習(MARL)は、複数のエージェントが相互に相互作用するポリシーを同時に学習する効率的な方法である。
既存のアルゴリズムは、他のエージェントに対する自己行動の影響を正確に予測できない。
提案アルゴリズムはRecursive Reasoning Graph (R2G)と呼ばれ、複数のマルチエージェント粒子およびロボットゲームにおける最先端の性能を示す。
論文 参考訳(メタデータ) (2022-03-06T00:57:50Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - Effects of Smart Traffic Signal Control on Air Quality [0.0]
マルチエージェント深部強化学習(MARL)は交通システムにおいて実験的に研究されている。
MA2Cと呼ばれる、確立されたアドバンテージアクター・クリティカル(A2C)アルゴリズムのマルチエージェント版が最近開発され、エージェント間の通信の有望なアイデアを活用している。
この観点から、エージェントは他のエージェントと戦略を共有し、エージェントの数や多様性が増大しても学習プロセスを安定化させる。
論文 参考訳(メタデータ) (2021-07-06T02:48:42Z) - SA-MATD3:Self-attention-based multi-agent continuous control method in
cooperative environments [12.959163198988536]
既存のアルゴリズムは、エージェントの数が増加するにつれて、不均一な学習度の問題に悩まされる。
マルチエージェントアクター批評家のための新しい構造を提案し,批評家ネットワークに自己注意機構を適用した。
提案アルゴリズムは、リプレイメモリバッファ内のサンプルをフル活用して、エージェントのクラスの振る舞いを学習する。
論文 参考訳(メタデータ) (2021-07-01T08:15:05Z) - Many Agent Reinforcement Learning Under Partial Observability [10.11960004698409]
我々は,平均場法よりもエージェントネットワークの幅広いクラスにおいて,最適動作を学習できることを実証した。
我々は,平均場法よりもエージェントネットワークの幅広いクラスにおいて,最適動作を学習できることを実証した。
論文 参考訳(メタデータ) (2021-06-17T21:24:29Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Scalable Multi-Agent Inverse Reinforcement Learning via
Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。
本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-24T20:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。