論文の概要: Population-aware Online Mirror Descent for Mean-Field Games with Common Noise by Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.03030v1
- Date: Wed, 03 Sep 2025 05:33:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.424989
- Title: Population-aware Online Mirror Descent for Mean-Field Games with Common Noise by Deep Reinforcement Learning
- Title(参考訳): 深層強化学習による共通雑音を持つ平均場ゲームにおける集団対応オンラインミラーダイス
- Authors: Zida Wu, Mathieu Lauriere, Matthieu Geist, Olivier Pietquin, Ankur Mehta,
- Abstract要約: Mean Field Games (MFG) は、大規模マルチエージェントシステムを研究するための強力なフレームワークを提供する。
しかし、MFGsにおけるナッシュ均衡の学習は依然として難しい問題である。
人口依存型ナッシュ均衡を実現するために,効率的な深層強化学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 28.970166223191836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mean Field Games (MFGs) offer a powerful framework for studying large-scale multi-agent systems. Yet, learning Nash equilibria in MFGs remains a challenging problem, particularly when the initial distribution is unknown or when the population is subject to common noise. In this paper, we introduce an efficient deep reinforcement learning (DRL) algorithm designed to achieve population-dependent Nash equilibria without relying on averaging or historical sampling, inspired by Munchausen RL and Online Mirror Descent. The resulting policy is adaptable to various initial distributions and sources of common noise. Through numerical experiments on seven canonical examples, we demonstrate that our algorithm exhibits superior convergence properties compared to state-of-the-art algorithms, particularly a DRL version of Fictitious Play for population-dependent policies. The performance in the presence of common noise underscores the robustness and adaptability of our approach.
- Abstract(参考訳): Mean Field Games (MFG) は、大規模マルチエージェントシステムを研究するための強力なフレームワークを提供する。
しかし、MFGsにおけるナッシュ均衡の学習は、初期分布が不明な場合や、人口が共通の騒音を受ける場合など、依然として困難な問題である。
本稿では,Munchausen RL と Online Mirror Descent にインスパイアされた,平均値や歴史的サンプリングに頼ることなく,人口依存型 Nash 均衡を実現するための効率的な深層強化学習アルゴリズムを提案する。
結果として得られるポリシーは、様々な初期分布や共通のノイズの源に適用可能である。
7つの標準例の数値実験により,本アルゴリズムは最先端のアルゴリズム,特に人口依存政策のためのDRL版のFctitious Playよりも優れた収束特性を示すことを示した。
共通のノイズの存在下での性能は、我々のアプローチの堅牢性と適応性を示している。
関連論文リスト
- Provably Efficient Information-Directed Sampling Algorithms for Multi-Agent Reinforcement Learning [50.92957910121088]
本研究は,情報指向サンプリング(IDS)の原理に基づくマルチエージェント強化学習(MARL)のための新しいアルゴリズムの設計と解析を行う。
エピソディックな2プレーヤゼロサムMGに対して、ナッシュ平衡を学習するための3つのサンプル効率アルゴリズムを提案する。
我々は、Reg-MAIDSをマルチプレイヤー汎用MGに拡張し、ナッシュ平衡または粗相関平衡をサンプル効率良く学習できることを証明する。
論文 参考訳(メタデータ) (2024-04-30T06:48:56Z) - Population-aware Online Mirror Descent for Mean-Field Games by Deep
Reinforcement Learning [43.004209289015975]
平均フィールドゲーム(MFG)は、大規模マルチエージェントシステムを扱う能力を持つ。
本研究では,人口依存型ナッシュ均衡を実現するディープ強化学習(DRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-06T08:55:34Z) - Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。
本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文 参考訳(メタデータ) (2024-02-08T14:54:47Z) - Heavy-tailed denoising score matching [5.371337604556311]
ランゲヴィン力学における複数のノイズレベルを連続的に初期化する反復的雑音スケーリングアルゴリズムを開発した。
実用面では、重み付きDSMを用いることで、スコア推定、制御可能なサンプリング収束、不均衡データセットに対するよりバランスのない非条件生成性能が改善される。
論文 参考訳(メタデータ) (2021-12-17T22:04:55Z) - Signatured Deep Fictitious Play for Mean Field Games with Common Noise [0.0]
平均場ゲーム(MFG)を共通のノイズで解くための既存のディープラーニング手法は、サンプリングされた共通のノイズパスを固定し、対応するMFGを解く。
そこで我々は,固定されていない共通雑音設定を用いてネストループ構造を回避できる新しい単一ループアルゴリズムを提案する。
提案アルゴリズムは,ニューラルネットワークのさらなるトレーニングを行うことなく,共通不確実性の変化が平均場平衡に与える影響を正確に把握することができる。
論文 参考訳(メタデータ) (2021-06-06T23:09:46Z) - Mean Field Games Flock! The Reinforcement Learning Way [34.67098179276852]
本稿では,多数のエージェントが群れを学べるようにする方法を提案する。
これは多くの動物で観察される自然な行動である。
アルゴリズムが障害物を伴う多元群や高次元群れを学習できることを数値的に示す。
論文 参考訳(メタデータ) (2021-05-17T15:17:36Z) - Scaling up Mean Field Games with Online Mirror Descent [55.36153467919289]
オンラインミラー Descent (OMD) を用いた平均場ゲーム (MFG) のスケールアップ均衡計算に対処する。
連続時間 OMD は自然かつモチベーションの良い単調性仮定の集合の下でナッシュ平衡に確実に収束することを示す。
様々な単一および多集団MFGに関する徹底的な実験的研究は、OMDがFictitious Play (FP)のような従来のアルゴリズムより優れていることを示している。
論文 参考訳(メタデータ) (2021-02-28T21:28:36Z) - Robust Reinforcement Learning using Adversarial Populations [118.73193330231163]
強化学習(Reinforcement Learning, RL)は、コントローラ設計に有効なツールであるが、堅牢性の問題に対処できる。
一つの逆数を使うことは、逆数の標準的なパラメトリゼーションの下での動的変動に一貫して堅牢性をもたらすわけではないことを示す。
本稿では,ロバスト RL の定式化に対する人口ベース増進法を提案する。
論文 参考訳(メタデータ) (2020-08-04T20:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。