論文の概要: Concave Utility Reinforcement Learning: the Mean-field Game viewpoint
- arxiv url: http://arxiv.org/abs/2106.03787v2
- Date: Wed, 9 Jun 2021 09:27:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 10:47:20.755979
- Title: Concave Utility Reinforcement Learning: the Mean-field Game viewpoint
- Title(参考訳): Concave Utility Reinforcement Learning: the Mean-field Game perspective
- Authors: Matthieu Geist, Julien P\'erolat, Mathieu Lauri\`ere, Romuald Elie,
Sarah Perrin, Olivier Bachem, R\'emi Munos, Olivier Pietquin
- Abstract要約: Concave Utility Reinforcement Learning (CURL) は、エージェントのポリシーによって引き起こされる占有度測定において、線形から凹凸ユーティリティまでRLを拡張する。
このより一般的なパラダイムは、古典的なベルマン方程式を無効にし、新しいアルゴリズムを要求する。
CURLは平均フィールドゲーム(MFG)のサブクラスであることを示す。
- 参考スコア(独自算出の注目度): 42.403650997341806
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Concave Utility Reinforcement Learning (CURL) extends RL from linear to
concave utilities in the occupancy measure induced by the agent's policy. This
encompasses not only RL but also imitation learning and exploration, among
others. Yet, this more general paradigm invalidates the classical Bellman
equations, and calls for new algorithms. Mean-field Games (MFGs) are a
continuous approximation of many-agent RL. They consider the limit case of a
continuous distribution of identical agents, anonymous with symmetric
interests, and reduce the problem to the study of a single representative agent
in interaction with the full population. Our core contribution consists in
showing that CURL is a subclass of MFGs. We think this important to bridge
together both communities. It also allows to shed light on aspects of both
fields: we show the equivalence between concavity in CURL and monotonicity in
the associated MFG, between optimality conditions in CURL and Nash equilibrium
in MFG, or that Fictitious Play (FP) for this class of MFGs is simply
Frank-Wolfe, bringing the first convergence rate for discrete-time FP for MFGs.
We also experimentally demonstrate that, using algorithms recently introduced
for solving MFGs, we can address the CURL problem more efficiently.
- Abstract(参考訳): Concave Utility Reinforcement Learning (CURL) は、エージェントのポリシーによって引き起こされる占有度測定において、線形から凹凸ユーティリティまでRLを拡張する。
これはRLだけでなく、模倣学習や探索も含んでいる。
しかし、このより一般的なパラダイムは古典的なベルマン方程式を無効化し、新しいアルゴリズムを要求する。
平均場ゲーム (MFGs) は多エージェントRLの連続近似である。
彼らは、同一のエージェントの連続分布の極限ケースを、対称的な利害と無関係に考慮し、問題を全集団と相互作用する単一の代表エージェントの研究に還元する。
私たちのコアコントリビューションは、CURLがMFGのサブクラスであることを示すことです。
これは両方のコミュニティを橋渡しする上で重要だと考えています。
また、CURLの凹凸と関連するMFGの単調性の間の等価性、CURLの最適条件とMFGのナッシュ平衡の間の最適性、あるいはこのMFGのクラスに対する有限プレイ(FP)は単にフランク=ウルフであり、MFGの離散時間FPに対する最初の収束率をもたらす。
また、最近導入されたアルゴリズムを用いて、より効率的にCURL問題に対処できることを実験的に実証した。
関連論文リスト
- Analysis of Multiscale Reinforcement Q-Learning Algorithms for Mean Field Control Games [2.3833208322103605]
MFCG(Mean Field Control Games)は、多数のエージェント間の競争ゲームである。
MFCGを解くために,3次元強化Q-Learning (RL) アルゴリズムの収束性を証明する。
論文 参考訳(メタデータ) (2024-05-27T10:01:52Z) - Provably Efficient Information-Directed Sampling Algorithms for Multi-Agent Reinforcement Learning [50.92957910121088]
本研究は,情報指向サンプリング(IDS)の原理に基づくマルチエージェント強化学習(MARL)のための新しいアルゴリズムの設計と解析を行う。
エピソディックな2プレーヤゼロサムMGに対して、ナッシュ平衡を学習するための3つのサンプル効率アルゴリズムを提案する。
我々は、Reg-MAIDSをマルチプレイヤー汎用MGに拡張し、ナッシュ平衡または粗相関平衡をサンプル効率良く学習できることを証明する。
論文 参考訳(メタデータ) (2024-04-30T06:48:56Z) - Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。
本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文 参考訳(メタデータ) (2024-02-08T14:54:47Z) - Learning Discrete-Time Major-Minor Mean Field Games [61.09249862334384]
本稿では,M3FG(Major-minor MFG)の新たな離散時間バージョンと,実演に基づく学習アルゴリズムを提案する。
M3FGは一般的な雑音でMFGを一般化し、ランダムな異種環境状態だけでなく、メジャープレイヤーも扱える。
論文 参考訳(メタデータ) (2023-12-17T18:22:08Z) - On Imitation in Mean-field Games [53.27734434016737]
平均場ゲーム(MFG)の文脈における模倣学習(IL)の問題について検討する。
報酬が人口分布に依存する場合にのみ、MFGのILを同様の保証付き単エージェントILに還元できることが示される。
本稿では,強化学習問題を平均場制御問題に置き換える新たな対角的定式化を提案する。
論文 参考訳(メタデータ) (2023-06-26T15:58:13Z) - Online Learning with Adversaries: A Differential-Inclusion Analysis [52.43460995467893]
我々は,完全に非同期なオンラインフェデレート学習のための観察行列ベースのフレームワークを提案する。
我々の主な結果は、提案アルゴリズムがほぼ確実に所望の平均$mu.$に収束することである。
新たな差分包摂型2時間スケール解析を用いて,この収束を導出する。
論文 参考訳(メタデータ) (2023-04-04T04:32:29Z) - Individual-Level Inverse Reinforcement Learning for Mean Field Games [16.79251229846642]
Mean Field IRL (MFIRL) は、MFGのための最初の専用のIRLフレームワークであり、協調環境と非協調環境の両方を扱うことができる。
未知のダイナミクスを持つMFGに対して有効な実用的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-02-13T20:35:01Z) - Reinforcement Learning for Mean Field Games, with Applications to
Economics [0.0]
平均場ゲーム(MFG)および平均場制御問題(平均場制御問題、平均場制御問題、平均場制御問題、平均場制御問題、平均場制御問題、平均場制御問題、平均場制御問題)は、エージェントの連続体を持つゲームにおいてナッシュ平衡または社会的最適性を研究するためのフレームワークである。
本稿では,MFGとMFCのためのRLを用いた2つの時間スケールアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-25T16:45:04Z) - Unified Reinforcement Q-Learning for Mean Field Game and Control
Problems [0.0]
本稿では、無限水平平均場ゲーム(MFG)と平均場制御(MFC)問題を解決するために強化学習(RL)アルゴリズムを提案する。
このアルゴリズムは,2つの学習パラメータの比率を単純に調整することで,MFGとMFCのどちらでも学習することができる。
論文 参考訳(メタデータ) (2020-06-24T17:45:44Z) - Alternating the Population and Control Neural Networks to Solve
High-Dimensional Stochastic Mean-Field Games [9.909883019034613]
我々は平均フィールドゲーム(MFG)を解くための交互人口とエージェント制御ニューラルネットワークを提案する。
提案アルゴリズムは,既存の解法に到達できないMFGの高次元例を対象としている。
最大100次元MFG問題に対する本手法の可能性を示す。
論文 参考訳(メタデータ) (2020-02-24T08:24:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。