論文の概要: Towards Understanding Cooperative Multi-Agent Q-Learning with Value
Factorization
- arxiv url: http://arxiv.org/abs/2006.00587v5
- Date: Sun, 31 Oct 2021 06:21:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 12:15:22.587275
- Title: Towards Understanding Cooperative Multi-Agent Q-Learning with Value
Factorization
- Title(参考訳): 価値因子化による協調型マルチエージェントQ-Learningの理解に向けて
- Authors: Jianhao Wang, Zhizhou Ren, Beining Han, Jianing Ye, Chongjie Zhang
- Abstract要約: 因子化多エージェントQ-ラーニングを解析するための多エージェント適合Q-イテレーションフレームワークを形式化する。
さらなる分析により、オンライン学習やよりリッチなジョイントバリュー関数クラスは、その局所的あるいは大域的収束特性を改善することができる。
- 参考スコア(独自算出の注目度): 28.89692989420673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Value factorization is a popular and promising approach to scaling up
multi-agent reinforcement learning in cooperative settings, which balances the
learning scalability and the representational capacity of value functions.
However, the theoretical understanding of such methods is limited. In this
paper, we formalize a multi-agent fitted Q-iteration framework for analyzing
factorized multi-agent Q-learning. Based on this framework, we investigate
linear value factorization and reveal that multi-agent Q-learning with this
simple decomposition implicitly realizes a powerful counterfactual credit
assignment, but may not converge in some settings. Through further analysis, we
find that on-policy training or richer joint value function classes can improve
its local or global convergence properties, respectively. Finally, to support
our theoretical implications in practical realization, we conduct an empirical
analysis of state-of-the-art deep multi-agent Q-learning algorithms on didactic
examples and a broad set of StarCraft II unit micromanagement tasks.
- Abstract(参考訳): 価値因子化(value factorization)は、学習のスケーラビリティと価値関数の表現能力のバランスをとる、協調的な環境でマルチエージェント強化学習をスケールアップする、ポピュラーで有望なアプローチである。
しかし、そのような方法の理論的理解は限られている。
本稿では,因子化多エージェントQ-ラーニングを解析するための多エージェント適合Q-イテレーションフレームワークを定式化する。
この枠組みに基づき、線形値分解を考察し、この単純な分解によるマルチエージェントQ-ラーニングが、強力な対実的クレジット代入を暗黙的に実現するが、いくつかの設定では収束しないことを示した。
さらなる分析により、オンライントレーニングやよりリッチなジョイントバリュー関数クラスは、それぞれの局所的あるいは大域的収束特性を改善できることがわかった。
最後に,本研究の実践的実現における理論的含意を裏付けるために,教科実例と幅広いStarCraft II単位マイクロマネジメントタスクについて,最先端の深層多エージェントQ-ラーニングアルゴリズムの実証分析を行った。
関連論文リスト
- An Empirical Investigation of Value-Based Multi-objective Reinforcement
Learning for Stochastic Environments [1.26404863283601]
本稿では、値ベースMORL Q-learningアルゴリズムがSER-Optimal Policyを学習する頻度に影響を与える要因について検討する。
これらのアルゴリズムの安定性と収束性に対するノイズQ値推定問題の重大な影響を強調した。
論文 参考訳(メタデータ) (2024-01-06T08:43:08Z) - Inverse Factorized Q-Learning for Cooperative Multi-agent Imitation
Learning [13.060023718506917]
模倣学習(英: mimicion learning, IL)は、協調型マルチエージェントシステムにおける実証から専門家の行動を模倣する学習の課題である。
本稿では,これらの課題に対処する新しいマルチエージェントILアルゴリズムを提案する。
本手法は,分散Q関数の集約に混在するネットワークを活用することで,集中学習を実現する。
論文 参考訳(メタデータ) (2023-10-10T17:11:20Z) - A Unifying Perspective on Multi-Calibration: Game Dynamics for
Multi-Objective Learning [63.20009081099896]
マルチキャリブレーション予測器の設計と解析のための統一フレームワークを提供する。
ゲームダイナミクスとの接続を利用して,多様なマルチ校正学習問題に対する最先端の保証を実現する。
論文 参考訳(メタデータ) (2023-02-21T18:24:17Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Residual Q-Networks for Value Function Factorizing in Multi-Agent
Reinforcement Learning [0.0]
マルチエージェント強化学習(MARL)のためのResidual Q-Networks(RQN)の概念を提案する。
RQNは、個人-グローバル-マックス基準(IGM)を保存する方法で、個々のQ値軌跡を変換することを学ぶ
提案手法はより高速に収束し、安定性が向上し、より広い環境群で堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-05-30T16:56:06Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。
既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。
モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2020-11-19T22:35:31Z) - QTRAN++: Improved Value Transformation for Cooperative Multi-Agent
Reinforcement Learning [70.382101956278]
QTRANは、最大級の共同作用値関数を学習できる強化学習アルゴリズムである。
理論的な保証は強いが、複雑な環境での実証的な性能は劣っている。
そこで我々はQTRAN++という改良版を提案する。
論文 参考訳(メタデータ) (2020-06-22T05:08:36Z) - Randomized Entity-wise Factorization for Multi-Agent Reinforcement
Learning [59.62721526353915]
実世界のマルチエージェント設定は、エージェントや非エージェントエンティティのタイプや量が異なるタスクを伴うことが多い。
我々の方法は、これらの共通点を活用することを目的としており、「観察対象のランダムに選択されたサブグループのみを考えるとき、各エージェントが期待する効用は何か?」という問いを投げかける。
論文 参考訳(メタデータ) (2020-06-07T18:28:41Z) - Multi-Agent Determinantal Q-Learning [39.79718674655209]
マルチエージェント決定型Q-ラーニングを提案する。Q-DPPはエージェントが多様な行動モデルを取得することを奨励する。
分散型協調作業において,Q-DPPがVDN,QMIX,QTRANなどの主要なソリューションを一般化することを実証する。
論文 参考訳(メタデータ) (2020-06-02T09:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。