論文の概要: Plan Better Amid Conservatism: Offline Multi-Agent Reinforcement
Learning with Actor Rectification
- arxiv url: http://arxiv.org/abs/2111.11188v1
- Date: Mon, 22 Nov 2021 13:27:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 16:54:45.059908
- Title: Plan Better Amid Conservatism: Offline Multi-Agent Reinforcement
Learning with Actor Rectification
- Title(参考訳): 保守主義の中でより良い計画--アクタ修正によるオフラインマルチエージェント強化学習
- Authors: Ling Pan, Longbo Huang, Tengyu Ma, Huazhe Xu
- Abstract要約: オフライン強化学習(RL)アルゴリズムは、直接マルチエージェント設定に転送することができる。
本稿では,この重要な課題に対処するために,Actor Rectification (OMAR) を用いたオフラインマルチエージェント RL を提案する。
OMARはマルチエージェント連続制御ベンチマークにおける最先端性能と強いベースラインを著しく上回る。
- 参考スコア(独自算出の注目度): 74.10976684469435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The idea of conservatism has led to significant progress in offline
reinforcement learning (RL) where an agent learns from pre-collected datasets.
However, it is still an open question to resolve offline RL in the more
practical multi-agent setting as many real-world scenarios involve interaction
among multiple agents. Given the recent success of transferring online RL
algorithms to the multi-agent setting, one may expect that offline RL
algorithms will also transfer to multi-agent settings directly. Surprisingly,
when conservatism-based algorithms are applied to the multi-agent setting, the
performance degrades significantly with an increasing number of agents. Towards
mitigating the degradation, we identify that a key issue that the landscape of
the value function can be non-concave and policy gradient improvements are
prone to local optima. Multiple agents exacerbate the problem since the
suboptimal policy by any agent could lead to uncoordinated global failure.
Following this intuition, we propose a simple yet effective method, Offline
Multi-Agent RL with Actor Rectification (OMAR), to tackle this critical
challenge via an effective combination of first-order policy gradient and
zeroth-order optimization methods for the actor to better optimize the
conservative value function. Despite the simplicity, OMAR significantly
outperforms strong baselines with state-of-the-art performance in multi-agent
continuous control benchmarks.
- Abstract(参考訳): 保守主義の概念は、エージェントが事前に収集されたデータセットから学習するオフライン強化学習(RL)において、大きな進歩をもたらした。
しかし、実世界の多くのシナリオが複数のエージェント間の相互作用に関わるため、より実用的なマルチエージェント環境でオフラインRLを解決することは、依然としてオープンな問題である。
オンラインRLアルゴリズムをマルチエージェント設定に転送する最近の成功を考えると、オフラインRLアルゴリズムはマルチエージェント設定に直接転送することも期待できる。
驚いたことに、保守主義に基づくアルゴリズムがマルチエージェント設定に適用されると、エージェントの増加とともに性能が著しく低下する。
劣化を緩和するためには、値関数のランドスケープが非コンケーブであり、政策の勾配改善が局所最適の傾向にあるという重要な問題を特定する。
複数のエージェントは、任意のエージェントによる最適下限ポリシーが非協調的なグローバルな失敗を引き起こす可能性があるため、問題を悪化させる。
この直観に従えば,1次政策勾配と0次最適化の効果的な組み合わせにより,アクターの保存的価値関数をより良く最適化するための,単純かつ効果的なオフラインマルチエージェントrlとアクタ整流 (omar) を提案する。
シンプルさにもかかわらず、OMARはマルチエージェント連続制御ベンチマークの最先端性能で強いベースラインを著しく上回っている。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Counterfactual Conservative Q Learning for Offline Multi-agent
Reinforcement Learning [54.788422270960496]
我々はCounterFactual conservative Q-Learning (CFCQL) という新しいマルチエージェントオフラインRLアルゴリズムを提案する。
CFCQLは、各エージェントの保守的正規化を非現実的に別々に計算し、それらを線形に組み合わせて全体的な保守的価値推定を実現する。
単一エージェントの保守的手法のように, まだ過小評価特性と性能保証を享受していることが証明されているが, 誘導正規化と安全な政策改善境界はエージェント番号とは無関係である。
論文 参考訳(メタデータ) (2023-09-22T08:10:25Z) - Offline Multi-Agent Reinforcement Learning with Implicit Global-to-Local
Value Regularization [23.416448404647305]
OMIGAは、暗黙のグローバル-ローカル-ローカル v alue 正規化を備えた新しいオフライン m ulti-agent RL アルゴリズムである。
OMIGAは、ほぼ全てのタスクにおいて、最先端のオフラインMARL法よりも優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-07-21T14:37:54Z) - Offline Multi-Agent Reinforcement Learning with Coupled Value
Factorization [2.66512000865131]
OMACは結合値因数分解を伴う新しいオフラインマルチエージェントRLアルゴリズムである。
OMACは局所状態値関数でサンプル内学習を行い、局所レベルで最大Q演算を暗黙的に行う。
我々は、最先端のオフラインマルチエージェントRL法よりも優れたOMAC性能を示す。
論文 参考訳(メタデータ) (2023-06-15T07:08:41Z) - Multi-agent Policy Reciprocity with Theoretical Guarantee [24.65151626601257]
提案手法は,不一致状態においてもエージェント間政策を完全に活用できる,新しいマルチエージェントポリシー相互性(PR)フレームワークを提案する。
離散的かつ連続的な環境における実験結果から,PRは既存のRL法や転写RL法よりも優れることが示された。
論文 参考訳(メタデータ) (2023-04-12T06:27:10Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - Believe What You See: Implicit Constraint Approach for Offline
Multi-Agent Reinforcement Learning [16.707045765042505]
現在のオフラインRLアルゴリズムは、累積外挿誤差のため、マルチエージェントシステムでは有効ではない。
本稿では,外挿誤差を効果的に軽減する新しいオフラインRLアルゴリズム,Implicit Constraint Q-learning (ICQ)を提案する。
実験結果から, 外挿誤差はほぼゼロに減少し, エージェント数に敏感であることが示唆された。
論文 参考訳(メタデータ) (2021-06-07T08:02:31Z) - Scalable Multi-Agent Inverse Reinforcement Learning via
Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。
本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-24T20:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。