論文の概要: Best Possible Q-Learning
- arxiv url: http://arxiv.org/abs/2302.01188v1
- Date: Thu, 2 Feb 2023 16:14:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-03 13:27:43.401704
- Title: Best Possible Q-Learning
- Title(参考訳): ベストなQ-Learning
- Authors: Jiechuan Jiang and Zongqing Lu
- Abstract要約: 分散学習は協調型マルチエージェント強化学習における課題である。
ほとんどの分散アルゴリズムの収束性と最適性は理論上保証されていない。
様々な協調型マルチエージェントタスクにおいて,Q-ラーニングがベースラインよりも顕著に改善できることが示唆された。
- 参考スコア(独自算出の注目度): 33.4713690991284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fully decentralized learning, where the global information, i.e., the actions
of other agents, is inaccessible, is a fundamental challenge in cooperative
multi-agent reinforcement learning. However, the convergence and optimality of
most decentralized algorithms are not theoretically guaranteed, since the
transition probabilities are non-stationary as all agents are updating policies
simultaneously. To tackle this challenge, we propose best possible operator, a
novel decentralized operator, and prove that the policies of agents will
converge to the optimal joint policy if each agent independently updates its
individual state-action value by the operator. Further, to make the update more
efficient and practical, we simplify the operator and prove that the
convergence and optimality still hold with the simplified one. By instantiating
the simplified operator, the derived fully decentralized algorithm, best
possible Q-learning (BQL), does not suffer from non-stationarity. Empirically,
we show that BQL achieves remarkable improvement over baselines in a variety of
cooperative multi-agent tasks.
- Abstract(参考訳): グローバル情報、すなわち他のエージェントの行動がアクセス不能である完全分散学習は、協調型マルチエージェント強化学習における根本的な課題である。
しかし、ほとんどの分散アルゴリズムの収束と最適性は、全てのエージェントが同時にポリシーを更新するため、遷移確率は不安定であるため、理論的には保証されない。
この課題に取り組むために,新たな分散演算子である最善のオペレータを提案するとともに,各エージェントが個別の状態動作値をオペレータによって独立に更新した場合,エージェントのポリシーが最適なジョイントポリシに収束することを示す。
さらに,更新をより効率的かつ実用的なものにするために,操作を単純化し,収束と最適性が簡略化された操作で保たれていることを証明した。
単純化演算子のインスタンス化により、導出された完全分散アルゴリズムであるbest possible q-learning (bql) は非定常性に苦しむことはない。
実験により,BQLは様々な協調型マルチエージェントタスクにおいて,ベースラインよりも顕著に改善されていることを示す。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Decentralized and Lifelong-Adaptive Multi-Agent Collaborative Learning [57.652899266553035]
分散型および生涯適応型多エージェント協調学習は、中央サーバを使わずに複数のエージェント間のコラボレーションを強化することを目的としている。
動的協調グラフを用いた分散マルチエージェント生涯協調学習アルゴリズムであるDeLAMAを提案する。
論文 参考訳(メタデータ) (2024-03-11T09:21:11Z) - Fully Decentralized Cooperative Multi-Agent Reinforcement Learning: A
Survey [48.77342627610471]
協調型マルチエージェント強化学習は多くの実世界の協調作業を解決する強力なツールである。
完全に分散した環境で最適な共同政策に収束できるアルゴリズムを導出することは困難である。
論文 参考訳(メタデータ) (2024-01-10T05:07:42Z) - Graph Exploration for Effective Multi-agent Q-Learning [46.723361065955544]
本稿では,エージェント間のグラフベース通信を用いたマルチエージェント強化学習(MARL)の探索手法を提案する。
エージェントが受け取った個々の報酬は、他のエージェントのアクションとは独立していると仮定する一方で、そのポリシーは結合されている。
提案手法では,より効率的な爆発行動を実行するために,近隣のエージェントが協調して状態-作用空間の不確かさを推定する。
論文 参考訳(メタデータ) (2023-04-19T10:28:28Z) - Multi-agent Policy Reciprocity with Theoretical Guarantee [24.65151626601257]
提案手法は,不一致状態においてもエージェント間政策を完全に活用できる,新しいマルチエージェントポリシー相互性(PR)フレームワークを提案する。
離散的かつ連続的な環境における実験結果から,PRは既存のRL法や転写RL法よりも優れることが示された。
論文 参考訳(メタデータ) (2023-04-12T06:27:10Z) - Iterated Reasoning with Mutual Information in Cooperative and Byzantine
Decentralized Teaming [0.0]
我々は,政策グラディエント(PG)の下での最適化において,エージェントの方針がチームメイトの方針に準じることが,本質的に相互情報(MI)の下限を最大化することを示す。
我々の手法であるInfoPGは、創発的協調行動の学習におけるベースラインを上回り、分散協調型MARLタスクにおける最先端の課題を設定します。
論文 参考訳(メタデータ) (2022-01-20T22:54:32Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - Offline Decentralized Multi-Agent Reinforcement Learning [33.4713690991284]
オフライン分散マルチエージェント強化学習のためのフレームワークを提案する。
我々は値の偏差と遷移正規化を利用して遷移確率を変化させる。
このフレームワークは、既存のオフライン強化学習アルゴリズムで簡単に構築できることを示す。
論文 参考訳(メタデータ) (2021-08-04T03:53:33Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。