論文の概要: Convergence Rates for Localized Actor-Critic in Networked Markov
Potential Games
- arxiv url: http://arxiv.org/abs/2303.04865v1
- Date: Wed, 8 Mar 2023 20:09:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-10 17:08:34.548053
- Title: Convergence Rates for Localized Actor-Critic in Networked Markov
Potential Games
- Title(参考訳): ネットワークマルコフポテンシャルゲームにおける局所的アクター臨界の収束速度
- Authors: Zhaoyi Zhou, Zaiwei Chen, Yiheng Lin, and Adam Wierman
- Abstract要約: ネットワーク内のノードにエージェントが関連付けられているネットワークマルコフポテンシャルゲームについて紹介する。
各エージェントは独自の潜在機能を持ち、各エージェントの報酬は$kappa$-hop地区内のエージェントの状態と行動にのみ依存する。
これはエージェントの数に依存しないマルチエージェント競争ゲームに対する最初の有限サンプル境界である。
- 参考スコア(独自算出の注目度): 12.704529528199062
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a class of networked Markov potential games where agents are
associated with nodes in a network. Each agent has its own local potential
function, and the reward of each agent depends only on the states and actions
of agents within a $\kappa$-hop neighborhood. In this context, we propose a
localized actor-critic algorithm. The algorithm is scalable since each agent
uses only local information and does not need access to the global state.
Further, the algorithm overcomes the curse of dimensionality through the use of
function approximation. Our main results provide finite-sample guarantees up to
a localization error and a function approximation error. Specifically, we
achieve an $\tilde{\mathcal{O}}(\epsilon^{-4})$ sample complexity measured by
the averaged Nash regret. This is the first finite-sample bound for multi-agent
competitive games that does not depend on the number of agents.
- Abstract(参考訳): 本稿では,ネットワーク内のノードにエージェントが関連付けられるネットワーク型マルコフポテンシャルゲームについて紹介する。
各エージェントはそれぞれのローカルポテンシャル関数を持ち、各エージェントの報酬は$\kappa$-hop近傍におけるエージェントの状態とアクションにのみ依存する。
この文脈では,局所化アクタ-クリティックアルゴリズムを提案する。
各エージェントはローカル情報のみを使用しており、グローバル状態へのアクセスは必要ないため、アルゴリズムはスケーラブルである。
さらに、このアルゴリズムは関数近似を用いて次元の呪いを克服する。
主な結果は,局所化誤差と関数近似誤差までの有限サンプル保証を提供する。
具体的には、平均nashの後悔によって測定されたサンプル複雑性を$\tilde{\mathcal{o}}(\epsilon^{-4})とする。
これはエージェントの数に依存しないマルチエージェント競争ゲームに対する最初の有限サンプル境界である。
関連論文リスト
- Cooperative Multi-Agent Constrained Stochastic Linear Bandits [2.099922236065961]
N$エージェントのネットワークがローカルに通信し、期待されるコストを所定の閾値$tau$で保持しながら、全体的な後悔を最小限に抑える。
我々は、textitMA-OPLBと呼ばれる安全な分散上信頼度有界アルゴリズムを提案し、そのT$ラウンドの後悔に基づく高い確率を確立する。
我々の後悔の限界は次数$ MathcalOleft(fracdtau-c_0fraclog(NT)2sqrtNsqrtTlog (1/|lambda|)であることを示す。
論文 参考訳(メタデータ) (2024-10-22T19:34:53Z) - Classification with a Network of Partially Informative Agents: Enabling Wise Crowds from Individually Myopic Classifiers [1.3417382097912094]
異種および部分的情報的エージェントのピア・ツー・ピアネットワークを用いた分類の問題点を考察する。
本稿では,局所的確率を用いた反復アルゴリズムを提案し,各エージェントのすべてのクラスに対する局所的信念を更新する。
ある仮定の下では、真のクラスについての信念は、ほぼ確実に一元的に収束することを示す。
論文 参考訳(メタデータ) (2024-09-30T04:59:51Z) - Networked Communication for Mean-Field Games with Function Approximation and Empirical Mean-Field Estimation [59.01527054553122]
分散エージェントは、経験的システムの単一かつ非エポゾディックな実行から平均フィールドゲームにおける平衡を学ぶことができる。
既存の設定に関数近似を導入し,Munchausen Online Mirror Descent 方式で描画する。
また, エージェントが局所的な周辺地域に基づいて, グローバルな経験分布を推定できる新しいアルゴリズムも提供する。
論文 参考訳(メタデータ) (2024-08-21T13:32:46Z) - Refined Sample Complexity for Markov Games with Independent Linear Function Approximation [49.5660193419984]
マルコフゲーム(MG)はマルチエージェント強化学習(MARL)の重要なモデルである
本稿では、WangらによるAVLPRフレームワークを改良し(2023年)、最適部分ギャップの悲観的推定を設計する。
マルチエージェントの呪いに取り組み、最適な$O(T-1/2)収束率を達成し、同時に$textpoly(A_max)$依存性を避ける最初のアルゴリズムを与える。
論文 参考訳(メタデータ) (2024-02-11T01:51:15Z) - Decentralized Monte Carlo Tree Search for Partially Observable
Multi-agent Pathfinding [49.730902939565986]
マルチエージェントパスフィンディング問題は、グラフに閉じ込められたエージェントのグループに対するコンフリクトフリーパスのセットを見つけることである。
本研究では、エージェントが他のエージェントをローカルにのみ観察できる分散MAPF設定に焦点を当てた。
MAPFタスクのための分散マルチエージェントモンテカルロ木探索法を提案する。
論文 参考訳(メタデータ) (2023-12-26T06:57:22Z) - Scalable Multi-agent Covering Option Discovery based on Kronecker Graphs [49.71319907864573]
本稿では,分解が容易なマルチエージェントスキル発見法を提案する。
我々のキーとなる考え方は、合同状態空間をクロネッカーグラフとして近似することであり、そのフィドラーベクトルを直接見積もることができる。
ラプラシアンスペクトルを直接計算することは、無限大の状態空間を持つタスクには難易度が高いことを考慮し、さらに本手法の深層学習拡張を提案する。
論文 参考訳(メタデータ) (2023-07-21T14:53:12Z) - Multi-Agent congestion cost minimization with linear function
approximation [0.0]
この作業では、ソースノードからゴールノードにネットワークをトラバースする複数のエージェントについて検討する。
エージェントの目的は、最小限の全体的なコストで、分散的な方法でゴールノードへのパスを見つけることである。
本稿では,新しいマルチエージェント・コンジェクション・コスト最小化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-26T08:45:44Z) - Representation Learning for General-sum Low-rank Markov Games [63.119870889883224]
非線形関数近似を用いたマルチエージェント汎用マルコフゲームについて検討する。
遷移行列が未知の非線形表現の上に隠れた低ランク構造を持つ低ランクマルコフゲームに焦点を当てる。
論文 参考訳(メタデータ) (2022-10-30T22:58:22Z) - Asymptotic Convergence of Deep Multi-Agent Actor-Critic Algorithms [0.6961253535504979]
我々は,多エージェントDeep Deterministic Policy Gradient (DDPG)アルゴリズムの収束を保証する十分な条件を提案する。
これは、連続的なアクション空間を扱うためのDeep Reinforcement Learning(DeepRL)の最も人気のあるパラダイムの1つである。
論文 参考訳(メタデータ) (2022-01-03T10:33:52Z) - Acceleration in Distributed Optimization Under Similarity [72.54787082152278]
集中ノードを持たないエージェントネットワーク上での分散(強い凸)最適化問題について検討する。
$varepsilon$-solutionは$tildemathcalrhoObig(sqrtfracbeta/mu (1-)log1/varepsilonbig)$通信ステップ数で達成される。
この速度は、関心のクラスに適用される分散ゴシップ-アルゴリズムの、初めて(ポリログ因子まで)より低い複雑性の通信境界と一致する。
論文 参考訳(メタデータ) (2021-10-24T04:03:00Z) - Communication-efficient Decentralized Local SGD over Undirected Networks [2.3572498744567123]
我々は、$n$エージェントのネットワークがグローバル関数$F$を最小化しようとする分散学習問題を考察する。
通信ラウンド数と各エージェントの計算労力のトレードオフを分析する。
その結果,R=Omega(n)$通信ラウンドのみを用いることで,O(1/nT)$というスケールの誤差を実現できることがわかった。
論文 参考訳(メタデータ) (2020-11-06T09:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。