論文の概要: Population-aware Online Mirror Descent for Mean-Field Games by Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2403.03552v1
- Date: Wed, 6 Mar 2024 08:55:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 15:31:59.122765
- Title: Population-aware Online Mirror Descent for Mean-Field Games by Deep
Reinforcement Learning
- Title(参考訳): 深層強化学習による平均フィールドゲームのための人口対応オンラインミラーダイス
- Authors: Zida Wu, Mathieu Lauriere, Samuel Jia Cong Chua, Matthieu Geist,
Olivier Pietquin, Ankur Mehta
- Abstract要約: 平均フィールドゲーム(MFG)は、大規模マルチエージェントシステムを扱う能力を持つ。
本研究では,人口依存型ナッシュ均衡を実現するディープ強化学習(DRL)アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 43.004209289015975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mean Field Games (MFGs) have the ability to handle large-scale multi-agent
systems, but learning Nash equilibria in MFGs remains a challenging task. In
this paper, we propose a deep reinforcement learning (DRL) algorithm that
achieves population-dependent Nash equilibrium without the need for averaging
or sampling from history, inspired by Munchausen RL and Online Mirror Descent.
Through the design of an additional inner-loop replay buffer, the agents can
effectively learn to achieve Nash equilibrium from any distribution, mitigating
catastrophic forgetting. The resulting policy can be applied to various initial
distributions. Numerical experiments on four canonical examples demonstrate our
algorithm has better convergence properties than SOTA algorithms, in particular
a DRL version of Fictitious Play for population-dependent policies.
- Abstract(参考訳): 平均場ゲーム(MFG)は大規模マルチエージェントシステムを扱う能力を持つが、MFGにおけるナッシュ均衡の学習は依然として難しい課題である。
本稿では,Munchausen RL と Online Mirror Descent にインスパイアされた,歴史から平均化やサンプリングを行うことなく,人口依存型 Nash 平衡を実現するディープ強化学習(DRL)アルゴリズムを提案する。
追加のインナーループ再生バッファの設計により、エージェントは任意の分布からナッシュ平衡を効果的に学習し、破滅的な忘れを軽減できる。
結果として得られるポリシーは、様々な初期分布に適用できる。
4つの標準例に関する数値実験により、我々のアルゴリズムはSOTAアルゴリズムよりも収束特性が優れていることを示した。
関連論文リスト
- Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は、新しいオンラインアルゴリズム、反復的ナッシュポリシー最適化(INPO)を提案する。
従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。
LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-06-30T08:00:34Z) - A Single Online Agent Can Efficiently Learn Mean Field Games [16.00164239349632]
平均場ゲーム (MFGs) は大規模人口システムの振る舞いをモデル化するための有望なフレームワークである。
本稿では,オンラインサンプルを用いてMFNEを学習できるオンライン単エージェントモデルフリー学習方式を提案する。
論文 参考訳(メタデータ) (2024-05-05T16:38:04Z) - MF-OML: Online Mean-Field Reinforcement Learning with Occupation Measures for Large Population Games [5.778024594615575]
本稿では,シーケンシャルゲームのナッシュ平衡計算のためのオンライン平均場強化学習アルゴリズムを提案する。
MFOMLは、ナッシュ平衡を実証的に解くための、最初の完全近似マルチエージェント強化学習アルゴリズムである。
副生成物として、モノトーン平均場ゲームの近似計算のための最初のトラクタブル大域収束計算も得られる。
論文 参考訳(メタデータ) (2024-05-01T02:19:31Z) - Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。
本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文 参考訳(メタデータ) (2024-02-08T14:54:47Z) - The Effective Horizon Explains Deep RL Performance in Stochastic Environments [21.148001945560075]
強化学習(Reinforcement Learning, RL)理論は、最小の複雑性サンプル境界の証明に重点を置いている。
本稿では,RLアルゴリズムSQIRLを提案する。このアルゴリズムはランダムに探索してロールアウトを収集することで,最適に近いポリシーを反復的に学習する。
我々は、SQIRLを利用して、指数的に「効果的な地平線」のルックアヘッドにのみ現れるRLのインスタンス依存のサンプル複雑性境界を導出し、近似に使用されるクラスの複雑性を導出する。
論文 参考訳(メタデータ) (2023-12-13T18:58:56Z) - Scalable Deep Reinforcement Learning Algorithms for Mean Field Games [60.550128966505625]
平均フィールドゲーム (MFGs) は、非常に多くの戦略エージェントを持つゲームを効率的に近似するために導入された。
近年,モデルフリー強化学習(RL)手法を用いて,MFGの学習均衡の課題が活発化している。
MFGを解くための既存のアルゴリズムは戦略や$q$-valuesのような近似量の混合を必要とする。
本稿では,この欠点に対処する2つの手法を提案する。まず,歴史データの蒸留からニューラルネットワークへの混合戦略を学習し,Factitious Playアルゴリズムに適用する。
2つ目はオンライン混合方式である。
論文 参考訳(メタデータ) (2022-03-22T18:10:32Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Mean Field Games Flock! The Reinforcement Learning Way [34.67098179276852]
本稿では,多数のエージェントが群れを学べるようにする方法を提案する。
これは多くの動物で観察される自然な行動である。
アルゴリズムが障害物を伴う多元群や高次元群れを学習できることを数値的に示す。
論文 参考訳(メタデータ) (2021-05-17T15:17:36Z) - Scaling up Mean Field Games with Online Mirror Descent [55.36153467919289]
オンラインミラー Descent (OMD) を用いた平均場ゲーム (MFG) のスケールアップ均衡計算に対処する。
連続時間 OMD は自然かつモチベーションの良い単調性仮定の集合の下でナッシュ平衡に確実に収束することを示す。
様々な単一および多集団MFGに関する徹底的な実験的研究は、OMDがFictitious Play (FP)のような従来のアルゴリズムより優れていることを示している。
論文 参考訳(メタデータ) (2021-02-28T21:28:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。