論文の概要: Networked Communication for Mean-Field Games with Function Approximation and Empirical Mean-Field Estimation
- arxiv url: http://arxiv.org/abs/2408.11607v2
- Date: Thu, 13 Mar 2025 13:32:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:50:14.387205
- Title: Networked Communication for Mean-Field Games with Function Approximation and Empirical Mean-Field Estimation
- Title(参考訳): 関数近似と経験的平均場推定を用いた平均場ゲームのためのネットワーク通信
- Authors: Patrick Benjamin, Alessandro Abate,
- Abstract要約: 分散エージェントは、経験的システムの非絶対的実行から平均フィールドゲームにおいて平衡を学ぶことができる。
既存の設定に関数近似を導入し,Munchausen Online Mirror Descent 方式で描画する。
ポリシー情報の交換は,ネットワーク化されたエージェントが,機能近似設定において,独立エージェントと集中エージェントの両方より優れていることを示す。
- 参考スコア(独自算出の注目度): 59.01527054553122
- License:
- Abstract: Recent algorithms allow decentralised agents, possibly connected via a communication network, to learn equilibria in Mean-Field Games from a non-episodic run of the empirical system. However, these algorithms are for tabular settings: this computationally limits the size of agents' observation space, meaning the algorithms cannot handle anything but small state spaces, nor generalise beyond policies depending only on the agent's local state to so-called 'population-dependent' policies. We address this limitation by introducing function approximation to the existing setting, drawing on the Munchausen Online Mirror Descent method that has previously been employed only in finite-horizon, episodic, centralised settings. While this permits us to include the mean field in the observation for players' policies, it is unrealistic to assume decentralised agents have access to this global information: we therefore also provide new algorithms allowing agents to locally estimate the global empirical distribution, and to improve this estimate via inter-agent communication. We show theoretically that exchanging policy information helps networked agents outperform both independent and even centralised agents in function-approximation settings. Our experiments demonstrate this happening empirically, by an even greater margin than in tabular settings, and show that the communication network allows decentralised agents to estimate the mean field for population-dependent policies.
- Abstract(参考訳): 近年のアルゴリズムにより、分散化されたエージェントは、おそらく通信ネットワークを介して接続され、経験的システムの非エポゾリックな実行から平均フィールドゲームにおける平衡を学ぶことができる。
このアルゴリズムは、エージェントの観察空間のサイズを計算的に制限しているため、小さな状態空間以外は処理できないし、エージェントのローカル状態のみに依存して、いわゆる「人口依存」ポリシーに一般化することもできない。
この制限は,これまで有限水平,エピソディック,集中化の設定にのみ用いられてきたMunchausen Online Mirror Descent法に基づいて,既存の設定に関数近似を導入することで解決される。
これにより、プレイヤーのポリシーに対する観察に平均的な分野を含めることができるが、分散エージェントがこのグローバル情報にアクセス可能であると仮定することは非現実的であり、エージェントがグローバルな経験的分布をローカルに推定し、エージェント間通信によってこの推定を改善するための新しいアルゴリズムも提供する。
我々は,ネットワーク化されたエージェントが,機能近似設定において,独立エージェントと集中エージェントの両方より優れていることを理論的に示す。
実験では,この現象を表の設定よりもはるかに大きなマージンで実証し,分散化エージェントが人口依存政策の平均場を推定できることを示す。
関連論文リスト
- Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - Distributed Policy Gradient for Linear Quadratic Networked Control with
Limited Communication Range [23.500806437272487]
局所的な情報のみを用いて正確な勾配を近似できることを示す。
集中型最適制御器と比較して、通信と制御範囲が増加するにつれて性能ギャップは指数関数的に減少する。
論文 参考訳(メタデータ) (2024-03-05T15:38:54Z) - Distributed Online Rollout for Multivehicle Routing in Unmapped
Environments [0.8437187555622164]
我々は、よく知られた多車両ルーティング問題に対して、完全に分散し、オンラインでスケーラブルな強化学習アルゴリズムを提案する。
エージェントはローカルクラスタに自己組織化し、各クラスタにローカルにマルチエージェントロールアウトスキームを独立に適用する。
提案アルゴリズムは, 放射半径の2倍と3倍の精度で, 基本方針よりも約2倍のコスト向上を実現している。
論文 参考訳(メタデータ) (2023-05-24T22:06:44Z) - Policy Evaluation in Decentralized POMDPs with Belief Sharing [39.550233049869036]
エージェントが直接環境状態を観察しないような協調的政策評価タスクについて検討する。
本稿では,コミュニケーションネットワーク上での個別更新と局所的インタラクションに依存する,完全に分散化された信念形成戦略を提案する。
論文 参考訳(メタデータ) (2023-02-08T15:54:15Z) - Multi-Agent MDP Homomorphic Networks [100.74260120972863]
協調型マルチエージェントシステムでは、エージェントの異なる構成とそれらの局所的な観察の間に複雑な対称性が生じる。
単エージェント強化学習における既存の対称性の研究は、完全に集中した環境にのみ一般化できる。
本稿では,ローカル情報のみを用いた分散実行が可能なネットワークのクラスであるマルチエージェントMDPホモモルフィックネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-09T07:46:25Z) - Dimension-Free Rates for Natural Policy Gradient in Multi-Agent
Reinforcement Learning [22.310861786709538]
協調型マルチエージェント強化学習のためのスケーラブルなアルゴリズムを提案する。
このアルゴリズムは,次元自由な統計量と計算量とで,グローバルな最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2021-09-23T23:38:15Z) - Learning Connectivity for Data Distribution in Robot Teams [96.39864514115136]
グラフニューラルネットワーク(GNN)を用いたアドホックネットワークにおけるデータ分散のためのタスク非依存,分散化,低レイテンシ手法を提案する。
当社のアプローチは、グローバル状態情報に基づいたマルチエージェントアルゴリズムを各ロボットで利用可能にすることで機能させます。
我々は,情報の平均年齢を報酬関数として強化学習を通じて分散gnn通信政策を訓練し,タスク固有の報酬関数と比較してトレーニング安定性が向上することを示す。
論文 参考訳(メタデータ) (2021-03-08T21:48:55Z) - An Online Learning Approach to Interpolation and Extrapolation in Domain
Generalization [53.592597682854944]
リスクを最小化するプレイヤーと新しいテストを示す敵の間のオンラインゲームとしてサブグループの一般化を再放送する。
両課題に対してERMは極小最適であることを示す。
論文 参考訳(メタデータ) (2021-02-25T19:06:48Z) - Cooperative Multi-Agent Reinforcement Learning with Partial Observations [16.895704973433382]
マルチエージェント強化学習(MARL)のための分散ゼロ階ポリシー最適化手法を提案する。
エージェントは、グローバルに蓄積された報酬の局所的な見積もりを使用して、ローカルポリシー機能を更新するために必要なローカルポリシー勾配を計算することができる。
本研究では, 一定段差の分散ゼロ階次ポリシ最適化手法が, 大域的目的関数の定常点であるポリシの近傍に収束することを示す。
論文 参考訳(メタデータ) (2020-06-18T19:36:22Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。