論文の概要: Parameter Sharing For Heterogeneous Agents in Multi-Agent Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2005.13625v7
- Date: Fri, 28 Jan 2022 00:19:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 07:53:25.531235
- Title: Parameter Sharing For Heterogeneous Agents in Multi-Agent Reinforcement
Learning
- Title(参考訳): マルチエージェント強化学習における異種エージェントのパラメータ共有
- Authors: J. K. Terry, Nathaniel Grammel, Sanghyun Son, Benjamin Black
- Abstract要約: 我々はエージェント指示の概念を定式化し、それが最適政策への収束を初めて可能にすることを証明した。
次に,パラメータ共有を異種観測空間や行動空間における学習に拡張する手法を正式に導入する。
- 参考スコア(独自算出の注目度): 8.722561861876898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parameter sharing, where each agent independently learns a policy with fully
shared parameters between all policies, is a popular baseline method for
multi-agent deep reinforcement learning. Unfortunately, since all agents share
the same policy network, they cannot learn different policies or tasks. This
issue has been circumvented experimentally by adding an agent-specific
indicator signal to observations, which we term "agent indication." Agent
indication is limited, however, in that without modification it does not allow
parameter sharing to be applied to environments where the action spaces and/or
observation spaces are heterogeneous. This work formalizes the notion of agent
indication and proves that it enables convergence to optimal policies for the
first time. Next, we formally introduce methods to extend parameter sharing to
learning in heterogeneous observation and action spaces, and prove that these
methods allow for convergence to optimal policies. Finally, we experimentally
confirm that the methods we introduce function empirically, and conduct a wide
array of experiments studying the empirical efficacy of many different agent
indication schemes for graphical observation spaces.
- Abstract(参考訳): パラメータ共有は、各エージェントが独立して、すべてのポリシー間で完全に共有されたパラメータを持つポリシーを学習するものである。
残念ながら、すべてのエージェントが同じポリシーネットワークを共有しているので、異なるポリシーやタスクを学べません。
この問題は、観察にエージェント特異的な指標信号を加えることで実験的に回避され、「エージェント表示」と呼ばれる。
エージェント表示は制限されているが、修正なしでは、アクション空間や観測空間が不均一な環境にパラメータ共有を適用することはできない。
この研究はエージェント指示の概念を形式化し、それが最適ポリシーへの収束を可能にすることを初めて証明する。
次に,不均一な観測と行動空間における学習へのパラメータ共有の拡張手法を正式に導入し,これらの手法が最適ポリシーへの収束を可能にすることを示す。
最後に,関数を経験的に導入する方法を実験的に検証し,多数の異なるエージェント表示方式のグラフィカルな観測空間に対する経験的有効性について検討した。
関連論文リスト
- Adaptive parameter sharing for multi-agent reinforcement learning [16.861543418593044]
生物学における脳に関する研究から着想を得た新しいパラメータ共有手法を提案する。
エージェントのタイプを、そのアイデンティティに基づいて、共有ネットワーク内の異なるリージョンにマッピングする。
本手法は,訓練パラメータを付加することなく,異なるエージェント間の戦略の多様性を向上させることができる。
論文 参考訳(メタデータ) (2023-12-14T15:00:32Z) - Invariant Causal Imitation Learning for Generalizable Policies [87.51882102248395]
Invariant Causal Learning (ICIL) を提案する。
ICILはノイズ変数の特定の表現から切り離された因果的特徴の表現を学習する。
ICILは、目に見えない環境に一般化可能な模倣ポリシーの学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:52:36Z) - Off-Policy Action Anticipation in Multi-Agent Reinforcement Learning [3.249853429482705]
MARL(Multi-Agent Reinforcement Learning)は、エージェントが他のエージェントの学習ステップを予測し、相互の協力を改善するための推論パラダイムである。
既存のHOGメソッドは、ポリシーパラメータの予測に基づいており、エージェントは他のエージェントのポリシーパラメータの変化を予測している。
OffPA2(Off-Policy Action Precipation)は,行動予測による学習予測にアプローチする新しいフレームワークである。
論文 参考訳(メタデータ) (2023-04-04T01:44:19Z) - Policy Evaluation in Decentralized POMDPs with Belief Sharing [39.550233049869036]
エージェントが直接環境状態を観察しないような協調的政策評価タスクについて検討する。
本稿では,コミュニケーションネットワーク上での個別更新と局所的インタラクションに依存する,完全に分散化された信念形成戦略を提案する。
論文 参考訳(メタデータ) (2023-02-08T15:54:15Z) - Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent
RL [107.58821842920393]
我々はエージェントの行動差を定量化し、bfロールの多様性を通して政策パフォーマンスとの関係を構築する
MARLの誤差は, 役割多様性と強い関係を持つ3つの部分に分けられる。
分解された要因は3つの一般的な方向における政策最適化に大きな影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-06-01T04:58:52Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - Informative Policy Representations in Multi-Agent Reinforcement Learning
via Joint-Action Distributions [17.129962954873587]
多エージェント強化学習において、他のエージェントの行動によって引き起こされる環境の非定常性は、エージェントが独立して良い政策を学ぶのに重大な困難を生じさせた。
本稿では,インタラクションでサンプリングされた協調行動分布を用いて,他のエージェントのポリシーの表現を学習する一般的な方法を提案する。
提案手法は,未確認エージェントに直面する場合のマルチエージェントタスクにおいて,既存の作業よりも優れていることを実証的に実証する。
論文 参考訳(メタデータ) (2021-06-10T15:09:33Z) - A Policy Gradient Algorithm for Learning to Learn in Multiagent
Reinforcement Learning [47.154539984501895]
本稿では,マルチエージェント学習環境に固有の非定常的ポリシーダイナミクスを考慮に入れたメタマルチエージェントポリシー勾配定理を提案する。
これは、エージェント自身の非定常ポリシーダイナミクスと、環境内の他のエージェントの非定常ポリシーダイナミクスの両方を考慮するために、勾配更新をモデル化することによって達成される。
論文 参考訳(メタデータ) (2020-10-31T22:50:21Z) - Variational Policy Propagation for Multi-agent Reinforcement Learning [68.26579560607597]
本稿では,エージェント間の相互作用を通じて,共役ポリシーを学習するために,変動ポリシー伝搬 (VPP) という,共役型多エージェント強化学習アルゴリズムを提案する。
共同政策がマルコフランダム場(Markov Random Field)であることは、いくつかの穏やかな条件下で証明し、それによって政策空間を効果的に減少させる。
我々は、マルコフ確率場から効率的に行動をサンプリングでき、全体的な政策が微分可能であるようなポリシーにおいて、変動推論を特別な微分可能な層として統合する。
論文 参考訳(メタデータ) (2020-04-19T15:42:55Z) - Multi-Agent Interactions Modeling with Correlated Policies [53.38338964628494]
本稿では,マルチエージェントインタラクションモデリング問題をマルチエージェント模倣学習フレームワークに実装する。
相関ポリシー(CoDAIL)を用いた分散型適応模倣学習アルゴリズムの開発
様々な実験により、CoDAILはデモレーターに近い複雑な相互作用をより良く再生できることが示されている。
論文 参考訳(メタデータ) (2020-01-04T17:31:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。