論文の概要: Off-Policy Action Anticipation in Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2304.01447v1
- Date: Tue, 4 Apr 2023 01:44:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 15:51:41.578474
- Title: Off-Policy Action Anticipation in Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習におけるオフポリティ行動予測
- Authors: Ariyan Bighashdel, Daan de Geus, Pavol Jancura, Gijs Dubbelman
- Abstract要約: MARL(Multi-Agent Reinforcement Learning)は、エージェントが他のエージェントの学習ステップを予測し、相互の協力を改善するための推論パラダイムである。
既存のHOGメソッドは、ポリシーパラメータの予測に基づいており、エージェントは他のエージェントのポリシーパラメータの変化を予測している。
OffPA2(Off-Policy Action Precipation)は,行動予測による学習予測にアプローチする新しいフレームワークである。
- 参考スコア(独自算出の注目度): 3.249853429482705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning anticipation in Multi-Agent Reinforcement Learning (MARL) is a
reasoning paradigm where agents anticipate the learning steps of other agents
to improve cooperation among themselves. As MARL uses gradient-based
optimization, learning anticipation requires using Higher-Order Gradients
(HOG), with so-called HOG methods. Existing HOG methods are based on policy
parameter anticipation, i.e., agents anticipate the changes in policy
parameters of other agents. Currently, however, these existing HOG methods have
only been applied to differentiable games or games with small state spaces. In
this work, we demonstrate that in the case of non-differentiable games with
large state spaces, existing HOG methods do not perform well and are
inefficient due to their inherent limitations related to policy parameter
anticipation and multiple sampling stages. To overcome these problems, we
propose Off-Policy Action Anticipation (OffPA2), a novel framework that
approaches learning anticipation through action anticipation, i.e., agents
anticipate the changes in actions of other agents, via off-policy sampling. We
theoretically analyze our proposed OffPA2 and employ it to develop multiple HOG
methods that are applicable to non-differentiable games with large state
spaces. We conduct a large set of experiments and illustrate that our proposed
HOG methods outperform the existing ones regarding efficiency and performance.
- Abstract(参考訳): MARL(Multi-Agent Reinforcement Learning)は、エージェントが他のエージェントの学習ステップを予測し、相互の協力を改善するための推論パラダイムである。
marlは勾配に基づく最適化を用いるため、学習予測にはhog法(higher-order gradients)を用いる必要がある。
既存のHOGメソッドはポリシーパラメータの予測に基づいており、エージェントは他のエージェントのポリシーパラメータの変化を予測している。
しかし、これらの既存のHOG法は、微分可能なゲームや小さな状態空間を持つゲームにのみ適用されている。
本研究では,大規模状態空間を持つ非微分可能ゲームの場合,既存の hog 手法がうまく動作せず,ポリシーパラメータの予測や複数のサンプリング段階に関連する固有の制限により非効率であることを示す。
これらの問題を克服するために, エージェントが他のエージェントの行動の変化を予測し, オフ・ポリティィ・アクション・予測(OffPA2)を提案し, オフ・ポリティィ・アクション・予測(OffPA2)を提案する。
提案したOFPA2を理論的に解析し,大規模状態空間を持つ非微分可能ゲームに適用可能な複数のHOG手法を開発する。
我々は多数の実験を行い,提案手法が既存の手法よりも効率と性能に優れていることを示す。
関連論文リスト
- Trial and Error: Exploration-Based Trajectory Optimization for LLM
Agents [52.82856458995437]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - Measuring Policy Distance for Multi-Agent Reinforcement Learning [9.80588687020087]
マルチエージェント強化学習(MARL)における政策差を測定するための多エージェント政策距離(MAPD)を提案する。
エージェントの判断の条件表現を学習することで、PDはエージェント間のポリシー距離を計算することができる。
また、MAPDをカスタマイズ可能なバージョンに拡張し、特定の側面におけるエージェントポリシーの違いを定量化します。
論文 参考訳(メタデータ) (2024-01-20T15:34:51Z) - Deep Multi-Agent Reinforcement Learning for Decentralized Active
Hypothesis Testing [11.639503711252663]
我々は,深層多エージェント強化学習の枠組みに根ざした新しいアルゴリズムを導入することで,マルチエージェント能動仮説テスト(AHT)問題に取り組む。
エージェントが協調戦略を学習し、性能を向上させる能力を効果的に示す実験結果を包括的に提示する。
論文 参考訳(メタデータ) (2023-09-14T01:18:04Z) - ACE: Cooperative Multi-agent Q-learning with Bidirectional
Action-Dependency [65.28061634546577]
マルチエージェント強化学習(MARL)は非定常性問題に悩まされる。
本稿では,双方向行動依存型Q-ラーニング(ACE)を提案する。
ACEは、Google Research FootballとStarCraft Multi-Agent Challengeで最先端のアルゴリズムを上回っている。
論文 参考訳(メタデータ) (2022-11-29T10:22:55Z) - RPM: Generalizable Behaviors for Multi-Agent Reinforcement Learning [90.43925357575543]
本稿では,MARLポリシーを総合性良く訓練するための多様なマルチエージェントトラジェクトリを収集するために,ランク付けされたポリシーメモリ(RPM)を提案する。
RPMにより、マルチエージェントの一般化評価シナリオと完全なタスクにおいて、MARLエージェントが未確認エージェントと対話することが可能になり、平均402%のパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2022-10-18T07:32:43Z) - Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning [25.027143431992755]
信頼領域の手法により、強化学習(RL)エージェントが単調な政策改善を学ぶことができるようになり、様々なタスクにおいて優れたパフォーマンスが得られた。
残念ながら、マルチエージェント強化学習(MARL)では、単調改善の特性は単純に適用できない。
本稿では、信頼領域学習の理論をMARLに拡張し、マルチエージェント・アドバンテージ分解補題とシーケンシャルポリシー更新スキームについて述べる。
これらに基づき、異種信託地域政策最適化(HATPRO)と異種信託地域政策最適化(HATPRO)を開発する。
論文 参考訳(メタデータ) (2021-09-23T09:44:35Z) - Scalable, Decentralized Multi-Agent Reinforcement Learning Methods
Inspired by Stigmergy and Ant Colonies [0.0]
分散型マルチエージェント学習と計画に対する新しいアプローチを検討する。
特に、この方法はアリコロニーの凝集、協調、行動に触発されている。
このアプローチは、単一エージェントRLと、マルチエージェントパス計画と環境修正のためのアリコロニーに触発された分散型のスティグメロジカルアルゴリズムを組み合わせたものである。
論文 参考訳(メタデータ) (2021-05-08T01:04:51Z) - Semi-On-Policy Training for Sample Efficient Multi-Agent Policy
Gradients [51.749831824106046]
本稿では,オンライン政策グラデーション手法のサンプル非効率性に効果的かつ効率的な手法として,セミ・オン・ポリティ(SOP)トレーニングを導入する。
提案手法は,様々なSMACタスクにおいて,最先端の値ベース手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-04-27T19:37:01Z) - Revisiting Parameter Sharing in Multi-Agent Deep Reinforcement Learning [14.017603575774361]
我々はエージェント指示の概念を定式化し、それが最適政策への収束を初めて可能にすることを証明した。
次に,パラメータ共有を異種観測空間や行動空間における学習に拡張する手法を正式に導入する。
論文 参考訳(メタデータ) (2020-05-27T20:14:28Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z) - Scalable Multi-Agent Inverse Reinforcement Learning via
Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。
本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-24T20:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。