論文の概要: Counterfactual Conservative Q Learning for Offline Multi-agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2309.12696v1
- Date: Fri, 22 Sep 2023 08:10:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-25 15:19:00.623026
- Title: Counterfactual Conservative Q Learning for Offline Multi-agent
Reinforcement Learning
- Title(参考訳): オフラインマルチエージェント強化学習のための反実的保守的Q学習
- Authors: Jianzhun Shao, Yun Qu, Chen Chen, Hongchang Zhang, Xiangyang Ji
- Abstract要約: 我々はCounterFactual conservative Q-Learning (CFCQL) という新しいマルチエージェントオフラインRLアルゴリズムを提案する。
CFCQLは、各エージェントの保守的正規化を非現実的に別々に計算し、それらを線形に組み合わせて全体的な保守的価値推定を実現する。
単一エージェントの保守的手法のように, まだ過小評価特性と性能保証を享受していることが証明されているが, 誘導正規化と安全な政策改善境界はエージェント番号とは無関係である。
- 参考スコア(独自算出の注目度): 54.788422270960496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline multi-agent reinforcement learning is challenging due to the coupling
effect of both distribution shift issue common in offline setting and the high
dimension issue common in multi-agent setting, making the action
out-of-distribution (OOD) and value overestimation phenomenon excessively
severe. Tomitigate this problem, we propose a novel multi-agent offline RL
algorithm, named CounterFactual Conservative Q-Learning (CFCQL) to conduct
conservative value estimation. Rather than regarding all the agents as a high
dimensional single one and directly applying single agent methods to it, CFCQL
calculates conservative regularization for each agent separately in a
counterfactual way and then linearly combines them to realize an overall
conservative value estimation. We prove that it still enjoys the
underestimation property and the performance guarantee as those single agent
conservative methods do, but the induced regularization and safe policy
improvement bound are independent of the agent number, which is therefore
theoretically superior to the direct treatment referred to above, especially
when the agent number is large. We further conduct experiments on four
environments including both discrete and continuous action settings on both
existing and our man-made datasets, demonstrating that CFCQL outperforms
existing methods on most datasets and even with a remarkable margin on some of
them.
- Abstract(参考訳): オフラインマルチエージェント強化学習は、オフライン設定に共通する分布シフト問題とマルチエージェント設定に共通する高次元問題の両方の結合効果により困難であり、アクションアウト・オブ・ディストリビューション(OOD)と価値過大評価現象を過度に重くする。
そこで,本稿では,CFCQL (CounterFactual Conservative Q-Learning) と呼ばれる新しいマルチエージェントオフラインRLアルゴリズムを提案する。
CFCQLは、高次元の単一エージェントとして全てのエージェントを考慮し、それに直接単一のエージェントメソッドを適用するのではなく、カウンターファクトな方法で各エージェントの保守的正規化を計算し、それらを線形に組み合わせて全体的な保守的価値推定を実現する。
我々は,これらの単一エージェントの保守的手法と同様に,過大評価特性と性能保証を享受していることを証明しているが,誘導正規化と安全政策改善の限界はエージェント番号から独立しているため,特にエージェント数が大きい場合には,理論的に上回っている。
我々はさらに,既存のデータセットと人工データセットの両方に対して,離散的および連続的なアクション設定を含む4つの環境で実験を行い,cfcqlが既存のメソッドよりも優れており,それらのいくつかには顕著なマージンがあることを示した。
関連論文リスト
- Scalable Multi-Agent Offline Reinforcement Learning and the Role of Information [37.18643811339418]
データセット収集とオフライン学習の両方にスケーラブルな新しいルーチンを提案する。
エージェントはまず、事前に特定された情報共有ネットワークと一貫性のある多様なデータセットを収集する。
提案手法は,FQIの教師あり学習段階における固有誤差を,共有情報と非共有情報との相互情報に限定することを可能にしている。
論文 参考訳(メタデータ) (2025-02-16T20:28:42Z) - AlberDICE: Addressing Out-Of-Distribution Joint Actions in Offline
Multi-Agent RL via Alternating Stationary Distribution Correction Estimation [65.4532392602682]
オフライン強化学習(RL)の主な課題の1つは、データ収集ポリシーから逸脱した学習ポリシーから生じる分散シフトである。
これはしばしば、政策改善中のアウト・オブ・ディストリビューション(OOD)アクションを避けることで対処される。
本稿では,定常分布最適化に基づく個別エージェントの集中学習を行うオフラインMARLアルゴリズムAlberDICEを紹介する。
論文 参考訳(メタデータ) (2023-11-03T18:56:48Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Plan Better Amid Conservatism: Offline Multi-Agent Reinforcement
Learning with Actor Rectification [74.10976684469435]
オフライン強化学習(RL)アルゴリズムは、直接マルチエージェント設定に転送することができる。
本稿では,この重要な課題に対処するために,Actor Rectification (OMAR) を用いたオフラインマルチエージェント RL を提案する。
OMARはマルチエージェント連続制御ベンチマークにおける最先端性能と強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2021-11-22T13:27:42Z) - Believe What You See: Implicit Constraint Approach for Offline
Multi-Agent Reinforcement Learning [16.707045765042505]
現在のオフラインRLアルゴリズムは、累積外挿誤差のため、マルチエージェントシステムでは有効ではない。
本稿では,外挿誤差を効果的に軽減する新しいオフラインRLアルゴリズム,Implicit Constraint Q-learning (ICQ)を提案する。
実験結果から, 外挿誤差はほぼゼロに減少し, エージェント数に敏感であることが示唆された。
論文 参考訳(メタデータ) (2021-06-07T08:02:31Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。