論文の概要: Off-Policy Action Anticipation in Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2304.01447v1
- Date: Tue, 4 Apr 2023 01:44:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 15:51:41.578474
- Title: Off-Policy Action Anticipation in Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習におけるオフポリティ行動予測
- Authors: Ariyan Bighashdel, Daan de Geus, Pavol Jancura, Gijs Dubbelman
- Abstract要約: MARL(Multi-Agent Reinforcement Learning)は、エージェントが他のエージェントの学習ステップを予測し、相互の協力を改善するための推論パラダイムである。
既存のHOGメソッドは、ポリシーパラメータの予測に基づいており、エージェントは他のエージェントのポリシーパラメータの変化を予測している。
OffPA2(Off-Policy Action Precipation)は,行動予測による学習予測にアプローチする新しいフレームワークである。
- 参考スコア(独自算出の注目度): 3.249853429482705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning anticipation in Multi-Agent Reinforcement Learning (MARL) is a
reasoning paradigm where agents anticipate the learning steps of other agents
to improve cooperation among themselves. As MARL uses gradient-based
optimization, learning anticipation requires using Higher-Order Gradients
(HOG), with so-called HOG methods. Existing HOG methods are based on policy
parameter anticipation, i.e., agents anticipate the changes in policy
parameters of other agents. Currently, however, these existing HOG methods have
only been applied to differentiable games or games with small state spaces. In
this work, we demonstrate that in the case of non-differentiable games with
large state spaces, existing HOG methods do not perform well and are
inefficient due to their inherent limitations related to policy parameter
anticipation and multiple sampling stages. To overcome these problems, we
propose Off-Policy Action Anticipation (OffPA2), a novel framework that
approaches learning anticipation through action anticipation, i.e., agents
anticipate the changes in actions of other agents, via off-policy sampling. We
theoretically analyze our proposed OffPA2 and employ it to develop multiple HOG
methods that are applicable to non-differentiable games with large state
spaces. We conduct a large set of experiments and illustrate that our proposed
HOG methods outperform the existing ones regarding efficiency and performance.
- Abstract(参考訳): MARL(Multi-Agent Reinforcement Learning)は、エージェントが他のエージェントの学習ステップを予測し、相互の協力を改善するための推論パラダイムである。
marlは勾配に基づく最適化を用いるため、学習予測にはhog法(higher-order gradients)を用いる必要がある。
既存のHOGメソッドはポリシーパラメータの予測に基づいており、エージェントは他のエージェントのポリシーパラメータの変化を予測している。
しかし、これらの既存のHOG法は、微分可能なゲームや小さな状態空間を持つゲームにのみ適用されている。
本研究では,大規模状態空間を持つ非微分可能ゲームの場合,既存の hog 手法がうまく動作せず,ポリシーパラメータの予測や複数のサンプリング段階に関連する固有の制限により非効率であることを示す。
これらの問題を克服するために, エージェントが他のエージェントの行動の変化を予測し, オフ・ポリティィ・アクション・予測(OffPA2)を提案し, オフ・ポリティィ・アクション・予測(OffPA2)を提案する。
提案したOFPA2を理論的に解析し,大規模状態空間を持つ非微分可能ゲームに適用可能な複数のHOG手法を開発する。
我々は多数の実験を行い,提案手法が既存の手法よりも効率と性能に優れていることを示す。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Improving Global Parameter-sharing in Physically Heterogeneous Multi-agent Reinforcement Learning with Unified Action Space [22.535906675532196]
マルチエージェントシステムでは、アクションセマンティクスはエージェントのアクションが他のエンティティに対して異なる影響を示す。
従来のマルチエージェント強化学習(MARL)アルゴリズムは、多種多様な異種エージェントにまたがる大域的パラメータ共有を適用する。
要件を満たすために統一行動空間(UAS)を導入する。
論文 参考訳(メタデータ) (2024-08-14T09:15:11Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - Measuring Policy Distance for Multi-Agent Reinforcement Learning [9.80588687020087]
マルチエージェント強化学習(MARL)における政策差を測定するための多エージェント政策距離(MAPD)を提案する。
エージェントの判断の条件表現を学習することで、PDはエージェント間のポリシー距離を計算することができる。
また、MAPDをカスタマイズ可能なバージョンに拡張し、特定の側面におけるエージェントポリシーの違いを定量化します。
論文 参考訳(メタデータ) (2024-01-20T15:34:51Z) - RPM: Generalizable Behaviors for Multi-Agent Reinforcement Learning [90.43925357575543]
本稿では,MARLポリシーを総合性良く訓練するための多様なマルチエージェントトラジェクトリを収集するために,ランク付けされたポリシーメモリ(RPM)を提案する。
RPMにより、マルチエージェントの一般化評価シナリオと完全なタスクにおいて、MARLエージェントが未確認エージェントと対話することが可能になり、平均402%のパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2022-10-18T07:32:43Z) - Scalable, Decentralized Multi-Agent Reinforcement Learning Methods
Inspired by Stigmergy and Ant Colonies [0.0]
分散型マルチエージェント学習と計画に対する新しいアプローチを検討する。
特に、この方法はアリコロニーの凝集、協調、行動に触発されている。
このアプローチは、単一エージェントRLと、マルチエージェントパス計画と環境修正のためのアリコロニーに触発された分散型のスティグメロジカルアルゴリズムを組み合わせたものである。
論文 参考訳(メタデータ) (2021-05-08T01:04:51Z) - Semi-On-Policy Training for Sample Efficient Multi-Agent Policy
Gradients [51.749831824106046]
本稿では,オンライン政策グラデーション手法のサンプル非効率性に効果的かつ効率的な手法として,セミ・オン・ポリティ(SOP)トレーニングを導入する。
提案手法は,様々なSMACタスクにおいて,最先端の値ベース手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-04-27T19:37:01Z) - Revisiting Parameter Sharing in Multi-Agent Deep Reinforcement Learning [14.017603575774361]
我々はエージェント指示の概念を定式化し、それが最適政策への収束を初めて可能にすることを証明した。
次に,パラメータ共有を異種観測空間や行動空間における学習に拡張する手法を正式に導入する。
論文 参考訳(メタデータ) (2020-05-27T20:14:28Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z) - Scalable Multi-Agent Inverse Reinforcement Learning via
Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。
本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-24T20:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。