論文の概要: Offline Multi-Agent Reinforcement Learning with Coupled Value
Factorization
- arxiv url: http://arxiv.org/abs/2306.08900v1
- Date: Thu, 15 Jun 2023 07:08:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 16:14:03.037448
- Title: Offline Multi-Agent Reinforcement Learning with Coupled Value
Factorization
- Title(参考訳): 結合値分解を用いたオフラインマルチエージェント強化学習
- Authors: Xiangsen Wang, Xianyuan Zhan
- Abstract要約: OMACは結合値因数分解を伴う新しいオフラインマルチエージェントRLアルゴリズムである。
OMACは局所状態値関数でサンプル内学習を行い、局所レベルで最大Q演算を暗黙的に行う。
我々は、最先端のオフラインマルチエージェントRL法よりも優れたOMAC性能を示す。
- 参考スコア(独自算出の注目度): 2.66512000865131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) that learns policies from offline
datasets without environment interaction has received considerable attention in
recent years. Compared with the rich literature in the single-agent case,
offline multi-agent RL is still a relatively underexplored area. Most existing
methods directly apply offline RL ingredients in the multi-agent setting
without fully leveraging the decomposable problem structure, leading to less
satisfactory performance in complex tasks. We present OMAC, a new offline
multi-agent RL algorithm with coupled value factorization. OMAC adopts a
coupled value factorization scheme that decomposes the global value function
into local and shared components, and also maintains the credit assignment
consistency between the state-value and Q-value functions. Moreover, OMAC
performs in-sample learning on the decomposed local state-value functions,
which implicitly conducts max-Q operation at the local level while avoiding
distributional shift caused by evaluating out-of-distribution actions. Based on
the comprehensive evaluations of the offline multi-agent StarCraft II
micro-management tasks, we demonstrate the superior performance of OMAC over
the state-of-the-art offline multi-agent RL methods.
- Abstract(参考訳): 近年,環境相互作用のないオフラインデータセットからポリシーを学習するオフライン強化学習(RL)が注目されている。
単一エージェントの場合のリッチな文献と比較すると、オフラインマルチエージェントRLはいまだに未探索領域である。
既存のほとんどの手法は、分解可能な問題構造を完全に活用することなく、オフラインのRL成分を直接マルチエージェント設定に適用する。
OMACは結合値因数分解を伴う新しいオフラインマルチエージェントRLアルゴリズムである。
OMACは、グローバル値関数を局所的および共有的コンポーネントに分解する結合値分解スキームを採用し、状態値とQ値関数間のクレジット割り当て一貫性を維持する。
さらに、OMACは分解された局所的状態値関数に対してサンプル内学習を行い、これは分布変化を回避しつつ、局所レベルで最大Q演算を暗黙的に行う。
オフラインマルチエージェントStarCraft IIマイクロマネジメントタスクの総合的な評価に基づいて、最先端のオフラインマルチエージェントRL法よりもOMACの優れた性能を示す。
関連論文リスト
- ComaDICE: Offline Cooperative Multi-Agent Reinforcement Learning with Stationary Distribution Shift Regularization [11.620274237352026]
オフライン強化学習(RL)は、事前に収集されたデータセットから効果的なポリシーを学習する能力において、大きな注目を集めている。
MARLは、大きな結合状態-作用空間とマルチエージェントの振る舞いの複雑さにより、さらなる課題を提起する。
定常分布空間に正規化器を導入し、分布シフトをよりよく処理する。
論文 参考訳(メタデータ) (2024-10-02T18:56:10Z) - AlberDICE: Addressing Out-Of-Distribution Joint Actions in Offline
Multi-Agent RL via Alternating Stationary Distribution Correction Estimation [65.4532392602682]
オフライン強化学習(RL)の主な課題の1つは、データ収集ポリシーから逸脱した学習ポリシーから生じる分散シフトである。
これはしばしば、政策改善中のアウト・オブ・ディストリビューション(OOD)アクションを避けることで対処される。
本稿では,定常分布最適化に基づく個別エージェントの集中学習を行うオフラインMARLアルゴリズムAlberDICEを紹介する。
論文 参考訳(メタデータ) (2023-11-03T18:56:48Z) - Counterfactual Conservative Q Learning for Offline Multi-agent
Reinforcement Learning [54.788422270960496]
我々はCounterFactual conservative Q-Learning (CFCQL) という新しいマルチエージェントオフラインRLアルゴリズムを提案する。
CFCQLは、各エージェントの保守的正規化を非現実的に別々に計算し、それらを線形に組み合わせて全体的な保守的価値推定を実現する。
単一エージェントの保守的手法のように, まだ過小評価特性と性能保証を享受していることが証明されているが, 誘導正規化と安全な政策改善境界はエージェント番号とは無関係である。
論文 参考訳(メタデータ) (2023-09-22T08:10:25Z) - Offline Multi-Agent Reinforcement Learning with Implicit Global-to-Local
Value Regularization [23.416448404647305]
OMIGAは、暗黙のグローバル-ローカル-ローカル v alue 正規化を備えた新しいオフライン m ulti-agent RL アルゴリズムである。
OMIGAは、ほぼ全てのタスクにおいて、最先端のオフラインMARL法よりも優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-07-21T14:37:54Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Plan Better Amid Conservatism: Offline Multi-Agent Reinforcement
Learning with Actor Rectification [74.10976684469435]
オフライン強化学習(RL)アルゴリズムは、直接マルチエージェント設定に転送することができる。
本稿では,この重要な課題に対処するために,Actor Rectification (OMAR) を用いたオフラインマルチエージェント RL を提案する。
OMARはマルチエージェント連続制御ベンチマークにおける最先端性能と強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2021-11-22T13:27:42Z) - Believe What You See: Implicit Constraint Approach for Offline
Multi-Agent Reinforcement Learning [16.707045765042505]
現在のオフラインRLアルゴリズムは、累積外挿誤差のため、マルチエージェントシステムでは有効ではない。
本稿では,外挿誤差を効果的に軽減する新しいオフラインRLアルゴリズム,Implicit Constraint Q-learning (ICQ)を提案する。
実験結果から, 外挿誤差はほぼゼロに減少し, エージェント数に敏感であることが示唆された。
論文 参考訳(メタデータ) (2021-06-07T08:02:31Z) - Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。
深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文 参考訳(メタデータ) (2020-03-19T16:51:51Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。