論文の概要: Population-aware Online Mirror Descent for Mean-Field Games by Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2403.03552v1
- Date: Wed, 6 Mar 2024 08:55:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 15:31:59.122765
- Title: Population-aware Online Mirror Descent for Mean-Field Games by Deep
Reinforcement Learning
- Title(参考訳): 深層強化学習による平均フィールドゲームのための人口対応オンラインミラーダイス
- Authors: Zida Wu, Mathieu Lauriere, Samuel Jia Cong Chua, Matthieu Geist,
Olivier Pietquin, Ankur Mehta
- Abstract要約: 平均フィールドゲーム(MFG)は、大規模マルチエージェントシステムを扱う能力を持つ。
本研究では,人口依存型ナッシュ均衡を実現するディープ強化学習(DRL)アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 43.004209289015975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mean Field Games (MFGs) have the ability to handle large-scale multi-agent
systems, but learning Nash equilibria in MFGs remains a challenging task. In
this paper, we propose a deep reinforcement learning (DRL) algorithm that
achieves population-dependent Nash equilibrium without the need for averaging
or sampling from history, inspired by Munchausen RL and Online Mirror Descent.
Through the design of an additional inner-loop replay buffer, the agents can
effectively learn to achieve Nash equilibrium from any distribution, mitigating
catastrophic forgetting. The resulting policy can be applied to various initial
distributions. Numerical experiments on four canonical examples demonstrate our
algorithm has better convergence properties than SOTA algorithms, in particular
a DRL version of Fictitious Play for population-dependent policies.
- Abstract(参考訳): 平均場ゲーム(MFG)は大規模マルチエージェントシステムを扱う能力を持つが、MFGにおけるナッシュ均衡の学習は依然として難しい課題である。
本稿では,Munchausen RL と Online Mirror Descent にインスパイアされた,歴史から平均化やサンプリングを行うことなく,人口依存型 Nash 平衡を実現するディープ強化学習(DRL)アルゴリズムを提案する。
追加のインナーループ再生バッファの設計により、エージェントは任意の分布からナッシュ平衡を効果的に学習し、破滅的な忘れを軽減できる。
結果として得られるポリシーは、様々な初期分布に適用できる。
4つの標準例に関する数値実験により、我々のアルゴリズムはSOTAアルゴリズムよりも収束特性が優れていることを示した。
関連論文リスト
- Model-Based RL for Mean-Field Games is not Statistically Harder than
Single-Agent RL [64.90038012690403]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。
本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文 参考訳(メタデータ) (2024-02-08T14:54:47Z) - The Effective Horizon Explains Deep RL Performance in Stochastic
Environments [23.10267286342329]
ランダム探索やニューラルネットワークのようなより表現力のある関数クラスを用いたにもかかわらず、ディープRLアルゴリズムが実際によく機能する理由を示す。
我々は、ランダムにロールアウトを収集して、ほぼ最適ポリシーを反復的に学習する新しいRLアルゴリズム、SQIRLを導入する。
ランダムな条件のQ-関数を推定することにより、多くの環境が解決可能であることを示すので、実際にランダムな探索がうまく機能する理由を示す。
論文 参考訳(メタデータ) (2023-12-13T18:58:56Z) - One-Step Distributional Reinforcement Learning [10.64435582017292]
簡単な一段階分散強化学習(OS-DistrRL)フレームワークを提案する。
当社のアプローチには,政策評価と統制の両面での統一理論があることが示されている。
ほぼ確実に収束解析を行う2つのOS-DistrRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-27T06:57:00Z) - Minimax-Optimal Multi-Agent RL in Zero-Sum Markov Games With a
Generative Model [50.38446482252857]
2人プレイのゼロサムマルコフゲームは多エージェント強化学習においておそらく最も基本的な設定である。
我々は,$$ widetildeObiggを用いて,$varepsilon$-approximate Markov NEポリシーを学習する学習アルゴリズムを開発した。
我々は、分散型量の役割を明確にするFTRLに対する洗練された後悔境界を導出する。
論文 参考訳(メタデータ) (2022-08-22T17:24:55Z) - Scalable Deep Reinforcement Learning Algorithms for Mean Field Games [60.550128966505625]
平均フィールドゲーム (MFGs) は、非常に多くの戦略エージェントを持つゲームを効率的に近似するために導入された。
近年,モデルフリー強化学習(RL)手法を用いて,MFGの学習均衡の課題が活発化している。
MFGを解くための既存のアルゴリズムは戦略や$q$-valuesのような近似量の混合を必要とする。
本稿では,この欠点に対処する2つの手法を提案する。まず,歴史データの蒸留からニューラルネットワークへの混合戦略を学習し,Factitious Playアルゴリズムに適用する。
2つ目はオンライン混合方式である。
論文 参考訳(メタデータ) (2022-03-22T18:10:32Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Mean Field Games Flock! The Reinforcement Learning Way [34.67098179276852]
本稿では,多数のエージェントが群れを学べるようにする方法を提案する。
これは多くの動物で観察される自然な行動である。
アルゴリズムが障害物を伴う多元群や高次元群れを学習できることを数値的に示す。
論文 参考訳(メタデータ) (2021-05-17T15:17:36Z) - Scaling up Mean Field Games with Online Mirror Descent [55.36153467919289]
オンラインミラー Descent (OMD) を用いた平均場ゲーム (MFG) のスケールアップ均衡計算に対処する。
連続時間 OMD は自然かつモチベーションの良い単調性仮定の集合の下でナッシュ平衡に確実に収束することを示す。
様々な単一および多集団MFGに関する徹底的な実験的研究は、OMDがFictitious Play (FP)のような従来のアルゴリズムより優れていることを示している。
論文 参考訳(メタデータ) (2021-02-28T21:28:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。