論文の概要: Individual-Level Inverse Reinforcement Learning for Mean Field Games
- arxiv url: http://arxiv.org/abs/2202.06401v1
- Date: Sun, 13 Feb 2022 20:35:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 18:20:34.632604
- Title: Individual-Level Inverse Reinforcement Learning for Mean Field Games
- Title(参考訳): 平均フィールドゲームのための個人レベル逆強化学習
- Authors: Yang Chen, Libo Zhang, Jiamou Liu and Shuyue Hu
- Abstract要約: Mean Field IRL (MFIRL) は、MFGのための最初の専用のIRLフレームワークであり、協調環境と非協調環境の両方を扱うことができる。
未知のダイナミクスを持つMFGに対して有効な実用的なアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 16.79251229846642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent mean field game (MFG) formalism has enabled the application of
inverse reinforcement learning (IRL) methods in large-scale multi-agent
systems, with the goal of inferring reward signals that can explain
demonstrated behaviours of large populations. The existing IRL methods for MFGs
are built upon reducing an MFG to a Markov decision process (MDP) defined on
the collective behaviours and average rewards of the population. However, this
paper reveals that the reduction from MFG to MDP holds only for the fully
cooperative setting. This limitation invalidates existing IRL methods on MFGs
with non-cooperative environments. To measure more general behaviours in large
populations, we study the use of individual behaviours to infer ground-truth
reward functions for MFGs. We propose Mean Field IRL (MFIRL), the first
dedicated IRL framework for MFGs that can handle both cooperative and
non-cooperative environments. Based on this theoretically justified framework,
we develop a practical algorithm effective for MFGs with unknown dynamics. We
evaluate MFIRL on both cooperative and mixed cooperative-competitive scenarios
with many agents. Results demonstrate that MFIRL excels in reward recovery,
sample efficiency and robustness in the face of changing dynamics.
- Abstract(参考訳): 近年の平均場ゲーム (MFG) の形式化により, 大規模マルチエージェントシステムにおける逆強化学習 (IRL) 手法の適用が可能となった。
MFGの既存のIRL法は、人口の集団行動と平均報酬に基づいて定義されたマルコフ決定過程(MDP)にMFGを還元することで構築される。
しかし, 本論文では, MFG から MDP への削減は, 完全に協調的な環境にのみ当てはまることを示した。
この制限は、非協調環境のMFG上の既存のIRLメソッドを無効にする。
大規模集団におけるより一般的な行動を測定するため,MFGに対する地道報酬関数を推定するための個人行動の利用について検討した。
我々は,協調環境と非協調環境の両方を扱える,MFGのための初の専用IRLフレームワークであるMean Field IRL(MFIRL)を提案する。
この理論的正当化の枠組みに基づき、未知のダイナミクスを持つmfgsに有効な実用的なアルゴリズムを開発した。
我々は,MFIRLを多くのエージェントによる協調的・複合的競争的シナリオで評価した。
その結果,MFIRLは動的変化に直面した場合の報酬回収,サンプル効率,堅牢性に優れていた。
関連論文リスト
- A Single Online Agent Can Efficiently Learn Mean Field Games [16.00164239349632]
平均場ゲーム (MFGs) は大規模人口システムの振る舞いをモデル化するための有望なフレームワークである。
本稿では,オンラインサンプルを用いてMFNEを学習できるオンライン単エージェントモデルフリー学習方式を提案する。
論文 参考訳(メタデータ) (2024-05-05T16:38:04Z) - Learning Discrete-Time Major-Minor Mean Field Games [61.09249862334384]
本稿では,M3FG(Major-minor MFG)の新たな離散時間バージョンと,実演に基づく学習アルゴリズムを提案する。
M3FGは一般的な雑音でMFGを一般化し、ランダムな異種環境状態だけでなく、メジャープレイヤーも扱える。
論文 参考訳(メタデータ) (2023-12-17T18:22:08Z) - Reinforcement Learning for SBM Graphon Games with Re-Sampling [4.6648272529750985]
我々は,リサンプリング(GGR-S)モデルを用いたグラフゲームに基づく新しい学習フレームワークを開発した。
我々はGGR-Sのダイナミクスを解析し,MP-MFGのダイナミックスへの収束を確立する。
論文 参考訳(メタデータ) (2023-10-25T03:14:48Z) - On Imitation in Mean-field Games [53.27734434016737]
平均場ゲーム(MFG)の文脈における模倣学習(IL)の問題について検討する。
報酬が人口分布に依存する場合にのみ、MFGのILを同様の保証付き単エージェントILに還元できることが示される。
本稿では,強化学習問題を平均場制御問題に置き換える新たな対角的定式化を提案する。
論文 参考訳(メタデータ) (2023-06-26T15:58:13Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Concave Utility Reinforcement Learning: the Mean-field Game viewpoint [42.403650997341806]
Concave Utility Reinforcement Learning (CURL) は、エージェントのポリシーによって引き起こされる占有度測定において、線形から凹凸ユーティリティまでRLを拡張する。
このより一般的なパラダイムは、古典的なベルマン方程式を無効にし、新しいアルゴリズムを要求する。
CURLは平均フィールドゲーム(MFG)のサブクラスであることを示す。
論文 参考訳(メタデータ) (2021-06-07T16:51:07Z) - Adversarial Inverse Reinforcement Learning for Mean Field Games [17.392418397388823]
平均場ゲーム(MFG)は、大規模マルチエージェントシステムをモデル化するための数学的に抽出可能なフレームワークを提供する。
本稿では,実証における不確実性に対処可能な新しいフレームワーク,Mean-Field Adversarial IRL(MF-AIRL)を提案する。
論文 参考訳(メタデータ) (2021-04-29T21:03:49Z) - Scaling up Mean Field Games with Online Mirror Descent [55.36153467919289]
オンラインミラー Descent (OMD) を用いた平均場ゲーム (MFG) のスケールアップ均衡計算に対処する。
連続時間 OMD は自然かつモチベーションの良い単調性仮定の集合の下でナッシュ平衡に確実に収束することを示す。
様々な単一および多集団MFGに関する徹底的な実験的研究は、OMDがFictitious Play (FP)のような従来のアルゴリズムより優れていることを示している。
論文 参考訳(メタデータ) (2021-02-28T21:28:36Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z) - A General Framework for Learning Mean-Field Games [10.483303456655058]
本稿では,人口の多いゲームにおいて,同時学習と意思決定を同時に行う汎用平均場ゲーム(GMFG)フレームワークを提案する。
次に、スムーズなポリシーを持つ価値ベースおよびポリシーベースの強化学習アルゴリズムを提案する。
GMF-V-QとGMF-P-TRPO(GMF-VとGMF-Pの2つの特定のインスタンス化)とQラーニングとTRPOは、GMFG設定において効率的かつ堅牢であることを示した。
論文 参考訳(メタデータ) (2020-03-13T00:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。