論文の概要: A Single Online Agent Can Efficiently Learn Mean Field Games
- arxiv url: http://arxiv.org/abs/2405.03718v2
- Date: Tue, 16 Jul 2024 06:03:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 20:59:06.759031
- Title: A Single Online Agent Can Efficiently Learn Mean Field Games
- Title(参考訳): ワンオンラインエージェントは、平均的なフィールドゲームを効果的に学習できる
- Authors: Chenyu Zhang, Xu Chen, Xuan Di,
- Abstract要約: 平均場ゲーム (MFGs) は大規模人口システムの振る舞いをモデル化するための有望なフレームワークである。
本稿では,オンラインサンプルを用いてMFNEを学習できるオンライン単エージェントモデルフリー学習方式を提案する。
- 参考スコア(独自算出の注目度): 16.00164239349632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mean field games (MFGs) are a promising framework for modeling the behavior of large-population systems. However, solving MFGs can be challenging due to the coupling of forward population evolution and backward agent dynamics. Typically, obtaining mean field Nash equilibria (MFNE) involves an iterative approach where the forward and backward processes are solved alternately, known as fixed-point iteration (FPI). This method requires fully observed population propagation and agent dynamics over the entire spatial domain, which could be impractical in some real-world scenarios. To overcome this limitation, this paper introduces a novel online single-agent model-free learning scheme, which enables a single agent to learn MFNE using online samples, without prior knowledge of the state-action space, reward function, or transition dynamics. Specifically, the agent updates its policy through the value function (Q), while simultaneously evaluating the mean field state (M), using the same batch of observations. We develop two variants of this learning scheme: off-policy and on-policy QM iteration. We prove that they efficiently approximate FPI, and a sample complexity guarantee is provided. The efficacy of our methods is confirmed by numerical experiments.
- Abstract(参考訳): 平均場ゲーム (MFGs) は大規模人口システムの振る舞いをモデル化するための有望なフレームワークである。
しかし、MFGの解決は、前向きの個体群進化と後向きのエージェントダイナミクスの結合によって困難になる可能性がある。
通常、平均場 Nash 平衡 (MFNE) を得るには、固定点反復 (FPI) と呼ばれる前方と後方のプロセスが交互に解かれる反復的アプローチが必要となる。
この方法は、空間領域全体にわたって完全に観察された人口伝播とエージェントダイナミクスを必要とするが、現実のシナリオでは現実的ではない。
この制限を克服するために,本研究では,オンラインサンプルを用いたMFNE学習を,状態-行動空間,報酬関数,遷移ダイナミクスの事前知識を伴わずに行うことのできる,新しいオンライン単エージェントモデルフリー学習方式を提案する。
具体的には、エージェントは、そのポリシーを値関数(Q)を介して更新し、同時に平均場状態(M)を評価し、同じ観察バッチを用いて評価する。
我々はこの学習方式の2つの変種を開発する: オフ・ポリティクスとオン・ポリティクスのQM反復である。
それらが効率的にFPIを近似していることが証明され、複雑性の保証が提供される。
数値実験により本手法の有効性を確認した。
関連論文リスト
- MFC-EQ: Mean-Field Control with Envelope Q-Learning for Moving Decentralized Agents in Formation [1.770056709115081]
移動エージェント(英: moving Agents in Formation、MAiF)は、マルチエージェントパスファインディングの変種である。
MFC-EQは、この双方向マルチエージェント問題に対するスケーラブルで適応可能な学習フレームワークである。
論文 参考訳(メタデータ) (2024-10-15T20:59:47Z) - Stochastic Semi-Gradient Descent for Learning Mean Field Games with Population-Aware Function Approximation [16.00164239349632]
平均場ゲーム (MFGs) は人口分布を用いた大規模マルチエージェントシステム内の相互作用をモデル化する。
本稿では,MFGのオンライン学習手法について考察する。
本研究では, 値関数と人口分布の両方に対する線形関数近似 (LFA) を開発し, 連続状態作用空間上でのMFGに対する最初の集団認識型LFAを実現する。
論文 参考訳(メタデータ) (2024-08-15T14:51:50Z) - The Power of Resets in Online Reinforcement Learning [73.64852266145387]
ローカルシミュレータアクセス(あるいはローカルプランニング)を用いたオンライン強化学習を通してシミュレータのパワーを探求する。
カバー性が低いMPPは,Qstar$-realizabilityのみのサンプル効率で学習可能であることを示す。
ローカルシミュレーターアクセス下では, 悪名高いExogenous Block MDP問題が抽出可能であることを示す。
論文 参考訳(メタデータ) (2024-04-23T18:09:53Z) - Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。
本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文 参考訳(メタデータ) (2024-02-08T14:54:47Z) - Regularization of the policy updates for stabilizing Mean Field Games [0.2348805691644085]
本研究は,非協調型マルチエージェント強化学習(MARL)の研究である。
複数のエージェントが同じ環境で相互作用し、個々のリターンを最大化するMARL。
提案アルゴリズムは,MF-PPO (Mean Field Proximal Policy Optimization) と命名し,OpenSpielフレームワークにおける提案手法の有効性を実証的に示す。
論文 参考訳(メタデータ) (2023-04-04T05:45:42Z) - Beyond ADMM: A Unified Client-variance-reduced Adaptive Federated
Learning Framework [82.36466358313025]
我々はFedVRAと呼ばれる原始二重FLアルゴリズムを提案し、このアルゴリズムはグローバルモデルの分散還元レベルとバイアスを適応的に制御することができる。
半教師付き画像分類タスクに基づく実験は,既存の手法よりもFedVRAの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-12-03T03:27:51Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Adversarial Inverse Reinforcement Learning for Mean Field Games [17.392418397388823]
平均場ゲーム(MFG)は、大規模マルチエージェントシステムをモデル化するための数学的に抽出可能なフレームワークを提供する。
本稿では,実証における不確実性に対処可能な新しいフレームワーク,Mean-Field Adversarial IRL(MF-AIRL)を提案する。
論文 参考訳(メタデータ) (2021-04-29T21:03:49Z) - Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field
Control/Game in Continuous Time [109.06623773924737]
線形二乗平均場制御とゲームに対するポリシー勾配法について検討する。
線形速度で最適解に収束し, 合成シミュレーションにより検証した。
論文 参考訳(メタデータ) (2020-08-16T06:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。