論文の概要: Generalization in Mean Field Games by Learning Master Policies
- arxiv url: http://arxiv.org/abs/2109.09717v1
- Date: Mon, 20 Sep 2021 17:47:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 15:58:50.527416
- Title: Generalization in Mean Field Games by Learning Master Policies
- Title(参考訳): 学習マスターポリシーによる平均フィールドゲームにおける一般化
- Authors: Sarah Perrin and Mathieu Lauri\`ere and Julien P\'erolat and Romuald
\'Elie and Matthieu Geist and Olivier Pietquin
- Abstract要約: 平均フィールドゲーム(MFG)は、非常に多くのエージェントにマルチエージェントシステムを拡張できる可能性がある。
本研究では、一般化特性を活用して、典型的なエージェントが任意の人口分布に対して最適に振る舞うことができるような政策を学ぶ方法について研究する。
- 参考スコア(独自算出の注目度): 34.67098179276852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mean Field Games (MFGs) can potentially scale multi-agent systems to
extremely large populations of agents. Yet, most of the literature assumes a
single initial distribution for the agents, which limits the practical
applications of MFGs. Machine Learning has the potential to solve a wider
diversity of MFG problems thanks to generalizations capacities. We study how to
leverage these generalization properties to learn policies enabling a typical
agent to behave optimally against any population distribution. In reference to
the Master equation in MFGs, we coin the term ``Master policies'' to describe
them and we prove that a single Master policy provides a Nash equilibrium,
whatever the initial distribution. We propose a method to learn such Master
policies. Our approach relies on three ingredients: adding the current
population distribution as part of the observation, approximating Master
policies with neural networks, and training via Reinforcement Learning and
Fictitious Play. We illustrate on numerical examples not only the efficiency of
the learned Master policy but also its generalization capabilities beyond the
distributions used for training.
- Abstract(参考訳): 平均フィールドゲーム(MFG)は、非常に多くのエージェントにマルチエージェントシステムを拡張できる可能性がある。
しかし、ほとんどの文献は、MFGの実用的応用を制限する、エージェントの1つの初期分布を前提としている。
機械学習は、一般化能力によって、より広範なMFG問題を解決する可能性がある。
本研究は,これらの一般化特性を活用して,一般エージェントが任意の集団分布に対して最適に振る舞うことができるような政策を学習する方法について検討する。
mfgs のマスター方程式を参照して、これらを記述するために 'master policy'' という用語をつくり、最初の分布が何であれ単一のマスターポリシーがnash平衡を与えることを証明した。
このようなマスターポリシーを学習する手法を提案する。
提案手法は,現在の人口分布を観察の一部として追加すること,ニューラルネットワークによるマスターポリシーの近似,強化学習とFactitious Playによるトレーニングという3つの要素に依存している。
学習したマスターポリシーの効率だけでなく、学習に使用する分布を超えた一般化能力の数値的な例について説明する。
関連論文リスト
- A Single Online Agent Can Efficiently Learn Mean Field Games [16.00164239349632]
平均場ゲーム (MFGs) は大規模人口システムの振る舞いをモデル化するための有望なフレームワークである。
本稿では,オンラインサンプルを用いてMFNEを学習できるオンライン単エージェントモデルフリー学習方式を提案する。
論文 参考訳(メタデータ) (2024-05-05T16:38:04Z) - Acquiring Diverse Skills using Curriculum Reinforcement Learning with Mixture of Experts [58.220879689376744]
強化学習(Reinforcement Learning, RL)は, 優れた政策獲得のための強力なアプローチである。
多様なスキルを学習するための textbfDiverse textbfSkill textbfLearning (Di-SkilL) を提案する。
本稿では,Di-SkilLが多種多様なパフォーマンススキルを学習できるロボットシミュレーションタスクについて述べる。
論文 参考訳(メタデータ) (2024-03-11T17:49:18Z) - Population-aware Online Mirror Descent for Mean-Field Games by Deep
Reinforcement Learning [43.004209289015975]
平均フィールドゲーム(MFG)は、大規模マルチエージェントシステムを扱う能力を持つ。
本研究では,人口依存型ナッシュ均衡を実現するディープ強化学習(DRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-06T08:55:34Z) - Is Inverse Reinforcement Learning Harder than Standard Reinforcement
Learning? A Theoretical Perspective [55.36819597141271]
逆強化学習(IRL: Inverse Reinforcement Learning)は、インテリジェントシステム開発において重要な役割を担う。
本稿では、サンプルとランタイムを用いて、バニラのオフラインおよびオンライン設定における効率的なIRLの最初のラインを提供する。
応用として、学習した報酬は適切な保証で他のターゲットMDPに転送可能であることを示す。
論文 参考訳(メタデータ) (2023-11-29T00:09:01Z) - Regularization of the policy updates for stabilizing Mean Field Games [0.2348805691644085]
本研究は,非協調型マルチエージェント強化学習(MARL)の研究である。
複数のエージェントが同じ環境で相互作用し、個々のリターンを最大化するMARL。
提案アルゴリズムは,MF-PPO (Mean Field Proximal Policy Optimization) と命名し,OpenSpielフレームワークにおける提案手法の有効性を実証的に示す。
論文 参考訳(メタデータ) (2023-04-04T05:45:42Z) - Learning Meta Representations for Agents in Multi-Agent Reinforcement
Learning [12.170248966278281]
多エージェント強化学習では、エージェントが1つのマルコフゲーム(MG)で学習する振る舞いは、通常、与えられたエージェント番号に制限される。
本研究は,人口変動型MGを対象とするエージェントの創出に焦点をあてる。
一元的なポリシーを学ぶ代わりに、各エージェントは、様々なゲームにまたがる効果的な戦略を構成するポリシーセットを学ぶ。
論文 参考訳(メタデータ) (2021-08-30T04:30:53Z) - DisCo RL: Distribution-Conditioned Reinforcement Learning for
General-Purpose Policies [116.12670064963625]
分散条件強化学習(DisCo RL)と呼ばれるオフポリシーアルゴリズムを開発し、コンテキストポリシーを効率的に学習します。
DisCo RLをさまざまなロボット操作タスクで評価し、新しい目標分布への一般化を必要とするタスクの以前の方法を大幅に上回っていることを発見しました。
論文 参考訳(メタデータ) (2021-04-23T16:51:58Z) - Imitation Learning from MPC for Quadrupedal Multi-Gait Control [63.617157490920505]
本稿では,歩行ロボットの複数の歩行を模倣する単一ポリシーを学習する学習アルゴリズムを提案する。
モデル予測制御によって導かれる模擬学習のアプローチであるMPC-Netを使用し、拡張します。
ハードウェアに対する我々のアプローチを検証し、学習したポリシーが教師に取って代わって複数の歩留まりを制御できることを示します。
論文 参考訳(メタデータ) (2021-03-26T08:48:53Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。