論文の概要: Breaking the Curse of Many Agents: Provable Mean Embedding Q-Iteration
for Mean-Field Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2006.11917v1
- Date: Sun, 21 Jun 2020 21:45:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 11:49:39.908510
- Title: Breaking the Curse of Many Agents: Provable Mean Embedding Q-Iteration
for Mean-Field Reinforcement Learning
- Title(参考訳): エージェントのカースを破る:Q-Iterationを組み込んだ平均強化学習
- Authors: Lingxiao Wang, Zhuoran Yang, Zhaoran Wang
- Abstract要約: 我々はマルチエージェント強化学習(MARL)におけるエージェントの対称性を利用する
我々は,平均場MARLを解くMF-FQIアルゴリズムを提案し,MF-FQIアルゴリズムの非漸近解析を確立する。
MF-FQIアルゴリズムは、多くの観測エージェントがMF-FQIアルゴリズムの性能を向上させるという意味で、「多くのエージェントの恵み」を享受する。
- 参考スコア(独自算出の注目度): 135.64775986546505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent reinforcement learning (MARL) achieves significant empirical
successes. However, MARL suffers from the curse of many agents. In this paper,
we exploit the symmetry of agents in MARL. In the most generic form, we study a
mean-field MARL problem. Such a mean-field MARL is defined on mean-field
states, which are distributions that are supported on continuous space. Based
on the mean embedding of the distributions, we propose MF-FQI algorithm that
solves the mean-field MARL and establishes a non-asymptotic analysis for MF-FQI
algorithm. We highlight that MF-FQI algorithm enjoys a "blessing of many
agents" property in the sense that a larger number of observed agents improves
the performance of MF-FQI algorithm.
- Abstract(参考訳): マルチエージェント強化学習(MARL)は経験的成功を収める。
しかし、MARLは多くのエージェントの呪いに苦しむ。
本稿では,MARLにおけるエージェントの対称性を利用する。
最も一般的な形で、平均場 MARL 問題を研究する。
そのような平均場 MARL は、連続空間上で支持される分布である平均場状態上で定義される。
分布の平均埋め込みに基づいて、平均場MARLを解くMF-FQIアルゴリズムを提案し、MF-FQIアルゴリズムの非漸近解析を確立する。
MF-FQIアルゴリズムは、多くの観測エージェントがMF-FQIアルゴリズムの性能を向上させるという意味で、「多くのエージェントの恵み」を享受する。
関連論文リスト
- Breaking the Curse of Multiagency in Robust Multi-Agent Reinforcement Learning [37.80275600302316]
分布的にロバストなマルコフゲーム (RMG) は、MARLのロバスト性を高めるために提案されている。
RMGがマルチ緊急の呪いから逃れられるかどうか。
これは、RMGに対するマルチ緊急の呪いを破る最初のアルゴリズムである。
論文 参考訳(メタデータ) (2024-09-30T08:09:41Z) - Decentralized Monte Carlo Tree Search for Partially Observable
Multi-agent Pathfinding [49.730902939565986]
マルチエージェントパスフィンディング問題は、グラフに閉じ込められたエージェントのグループに対するコンフリクトフリーパスのセットを見つけることである。
本研究では、エージェントが他のエージェントをローカルにのみ観察できる分散MAPF設定に焦点を当てた。
MAPFタスクのための分散マルチエージェントモンテカルロ木探索法を提案する。
論文 参考訳(メタデータ) (2023-12-26T06:57:22Z) - Robust Multi-Agent Reinforcement Learning with State Uncertainty [17.916400875478377]
本研究における状態不確実性を考慮したMARLの問題点について検討する。
このような平衡を求めるために,頑健なマルチエージェントQ-ラーニングアルゴリズムを提案する。
実験の結果,提案したRMAQアルゴリズムは最適値関数に収束することがわかった。
論文 参考訳(メタデータ) (2023-07-30T12:31:42Z) - Major-Minor Mean Field Multi-Agent Reinforcement Learning [29.296206774925388]
マルチエージェント強化学習(MARL)は多くのエージェントに拡張することが困難である。
平均場制御(MFC)を用いた最近のMARLは、他の難易度の高いMARLに対するトラクタブルで厳密なアプローチを提供する。
我々は、MFCを多種多様な複雑なエージェントを同時にモデル化するように一般化する。
論文 参考訳(メタデータ) (2023-03-19T14:12:57Z) - Relational Reasoning via Set Transformers: Provable Efficiency and
Applications to MARL [154.13105285663656]
置換不変エージェントフレームワークを用いたMARL(Multi-A gent R einforcement Learning)は,実世界のアプリケーションにおいて大きな実証的成功を収めた。
残念なことに、このMARL問題の理論的理解は、多くのエージェントの呪いと、既存の著作における関係推論の限定的な探索によって欠落している。
モデルフリーアルゴリズムとモデルベースアルゴリズムの最適度差は各エージェント数に独立して対数的であり、多くのエージェントの呪いを和らげる。
論文 参考訳(メタデータ) (2022-09-20T16:42:59Z) - Unitary Approximate Message Passing for Matrix Factorization [90.84906091118084]
行列分解 (MF) を一定の制約で考慮し, 様々な分野の応用を見いだす。
我々は,効率の良いメッセージパッシング実装であるUAMPMFを用いて,MFに対するベイズ的アプローチを開発する。
UAMPMFは、回復精度、ロバスト性、計算複雑性の観点から、最先端のアルゴリズムを著しく上回ることを示す。
論文 参考訳(メタデータ) (2022-07-31T12:09:32Z) - The Multi-Agent Pickup and Delivery Problem: MAPF, MARL and Its
Warehouse Applications [2.969705152497174]
マルチエージェントピックアップおよび配送問題に対する2つの最先端ソリューションを,異なる原理に基づいて検討した。
具体的には、コンフリクトベースサーチ(CBS)と呼ばれるMAPFアルゴリズムと、共有経験アクター批判(SEAC)と呼ばれる現在のMARLアルゴリズムについて検討する。
論文 参考訳(メタデータ) (2022-03-14T13:23:35Z) - Settling the Variance of Multi-Agent Policy Gradients [14.558011059649543]
政策勾配法(PG法)は、一般的な強化学習法(RL法)である。
マルチエージェントRL(MARL)では、PG定理は自然に拡張できるが、勾配推定のばらつきがエージェント数とともに急速に増加するにつれて、マルチエージェントPG法の有効性は低下する。
エージェント数とエージェントの探索の貢献度を定量化し,MAPG法を厳密に分析する。
MARL の既存の PG メソッドにシームレスに接続可能な OB のサロゲートバージョンを提案する。
論文 参考訳(メタデータ) (2021-08-19T10:49:10Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - Positive Semidefinite Matrix Factorization: A Connection with Phase
Retrieval and Affine Rank Minimization [71.57324258813674]
位相探索(PR)とアフィンランク最小化(ARM)アルゴリズムに基づいてPSDMFアルゴリズムを設計可能であることを示す。
このアイデアに触発され、反復的ハードしきい値(IHT)に基づくPSDMFアルゴリズムの新たなファミリーを導入する。
論文 参考訳(メタデータ) (2020-07-24T06:10:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。