論文の概要: Believe What You See: Implicit Constraint Approach for Offline
Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2106.03400v1
- Date: Mon, 7 Jun 2021 08:02:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 18:13:11.934852
- Title: Believe What You See: Implicit Constraint Approach for Offline
Multi-Agent Reinforcement Learning
- Title(参考訳): 信じたいこと: オフラインマルチエージェント強化学習のための暗黙の制約アプローチ
- Authors: Yiqin Yang, Xiaoteng Ma, Chenghao Li, Zewu Zheng, Qiyuan Zhang, Gao
Huang, Jun Yang, Qianchuan Zhao
- Abstract要約: 現在のオフラインRLアルゴリズムは、累積外挿誤差のため、マルチエージェントシステムでは有効ではない。
本稿では,外挿誤差を効果的に軽減する新しいオフラインRLアルゴリズム,Implicit Constraint Q-learning (ICQ)を提案する。
実験結果から, 外挿誤差はほぼゼロに減少し, エージェント数に敏感であることが示唆された。
- 参考スコア(独自算出の注目度): 16.707045765042505
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Learning from datasets without interaction with environments (Offline
Learning) is an essential step to apply Reinforcement Learning (RL) algorithms
in real-world scenarios. However, compared with the single-agent counterpart,
offline multi-agent RL introduces more agents with the larger state and action
space, which is more challenging but attracts little attention. We demonstrate
current offline RL algorithms are ineffective in multi-agent systems due to the
accumulated extrapolation error. In this paper, we propose a novel offline RL
algorithm, named Implicit Constraint Q-learning (ICQ), which effectively
alleviates the extrapolation error by only trusting the state-action pairs
given in the dataset for value estimation. Moreover, we extend ICQ to
multi-agent tasks by decomposing the joint-policy under the implicit
constraint. Experimental results demonstrate that the extrapolation error is
reduced to almost zero and insensitive to the number of agents. We further show
that ICQ achieves the state-of-the-art performance in the challenging
multi-agent offline tasks (StarCraft II).
- Abstract(参考訳): 環境との相互作用のないデータセットからの学習(Offline Learning)は、実世界のシナリオにReinforcement Learning (RL)アルゴリズムを適用するための重要なステップである。
しかし、単一エージェントと比較すると、オフラインマルチエージェントRLは、より大きな状態とアクション空間を持つより多くのエージェントを導入している。
累積外挿誤差により,現在のオフラインRLアルゴリズムはマルチエージェントシステムでは有効でないことを示す。
本稿では,データセットに与えられた状態-動作ペアのみを信頼し,外挿誤差を効果的に軽減する,Implicit Constraint Q-learning (ICQ) という新しいオフラインRLアルゴリズムを提案する。
さらに, icqをマルチエージェントタスクに拡張し, 暗黙の制約の下で共同政策を分解する。
実験の結果, 外挿誤差はほぼゼロに減少し, エージェント数に敏感であることがわかった。
さらに、ICQは、挑戦的なマルチエージェントオフラインタスク(StarCraft II)において最先端のパフォーマンスを達成することを示す。
関連論文リスト
- Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Learning RL-Policies for Joint Beamforming Without Exploration: A Batch
Constrained Off-Policy Approach [1.0080317855851213]
本稿では,ネットワークにおけるパラメータキャンセル最適化の問題点について考察する。
探索と学習のために実世界でアルゴリズムをデプロイすることは、探索せずにデータによって達成できることを示す。
論文 参考訳(メタデータ) (2023-10-12T18:36:36Z) - Offline Multi-Agent Reinforcement Learning with Coupled Value
Factorization [2.66512000865131]
OMACは結合値因数分解を伴う新しいオフラインマルチエージェントRLアルゴリズムである。
OMACは局所状態値関数でサンプル内学習を行い、局所レベルで最大Q演算を暗黙的に行う。
我々は、最先端のオフラインマルチエージェントRL法よりも優れたOMAC性能を示す。
論文 参考訳(メタデータ) (2023-06-15T07:08:41Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Plan Better Amid Conservatism: Offline Multi-Agent Reinforcement
Learning with Actor Rectification [74.10976684469435]
オフライン強化学習(RL)アルゴリズムは、直接マルチエージェント設定に転送することができる。
本稿では,この重要な課題に対処するために,Actor Rectification (OMAR) を用いたオフラインマルチエージェント RL を提案する。
OMARはマルチエージェント連続制御ベンチマークにおける最先端性能と強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2021-11-22T13:27:42Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - EMaQ: Expected-Max Q-Learning Operator for Simple Yet Effective Offline
and Online RL [48.552287941528]
オフ・ポリティクス強化学習は、意思決定ポリシーのサンプル効率の学習を約束する。
オフラインのRL設定では、標準のオフポリシーのRLメソッドは大幅に性能が低下する。
本稿では,提案アルゴリズムとより密接な関係を持つ期待値Q-Learning(EMaQ)を提案する。
論文 参考訳(メタデータ) (2020-07-21T21:13:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。