論文の概要: On Imitation in Mean-field Games
- arxiv url: http://arxiv.org/abs/2306.14799v1
- Date: Mon, 26 Jun 2023 15:58:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 12:47:29.492300
- Title: On Imitation in Mean-field Games
- Title(参考訳): 平均場ゲームにおける模倣について
- Authors: Giorgia Ramponi, Pavel Kolev, Olivier Pietquin, Niao He, Mathieu
Lauri\`ere, Matthieu Geist
- Abstract要約: 平均場ゲーム(MFG)の文脈における模倣学習(IL)の問題について検討する。
報酬が人口分布に依存する場合にのみ、MFGのILを同様の保証付き単エージェントILに還元できることが示される。
本稿では,強化学習問題を平均場制御問題に置き換える新たな対角的定式化を提案する。
- 参考スコア(独自算出の注目度): 53.27734434016737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore the problem of imitation learning (IL) in the context of
mean-field games (MFGs), where the goal is to imitate the behavior of a
population of agents following a Nash equilibrium policy according to some
unknown payoff function. IL in MFGs presents new challenges compared to
single-agent IL, particularly when both the reward function and the transition
kernel depend on the population distribution. In this paper, departing from the
existing literature on IL for MFGs, we introduce a new solution concept called
the Nash imitation gap. Then we show that when only the reward depends on the
population distribution, IL in MFGs can be reduced to single-agent IL with
similar guarantees. However, when the dynamics is population-dependent, we
provide a novel upper-bound that suggests IL is harder in this setting. To
address this issue, we propose a new adversarial formulation where the
reinforcement learning problem is replaced by a mean-field control (MFC)
problem, suggesting progress in IL within MFGs may have to build upon MFC.
- Abstract(参考訳): 我々は,nash均衡政策に従うエージェント集団の行動を,未知の給与関数に従って模倣することを目的として,平均場ゲーム(mfgs)の文脈で模倣学習(il)の問題を検討する。
MFGのILは、特に報酬関数と遷移カーネルが人口分布に依存する場合、シングルエージェントILと比較して新しい課題を示す。
本稿では,MFG に対する IL に関する既存の文献から脱却し,Nash 模倣ギャップと呼ばれる新しい解法の概念を導入する。
次に、報酬が人口分布に依存する場合にのみ、MFGのILを同様の保証付き単エージェントILに還元できることを示す。
しかし、動力学が人口依存である場合、この設定ではilがより難しいことを示唆する新しい上界を提供する。
この問題に対処するために,強化学習問題を平均場制御(MFC)問題に置き換え,MFG内のILの進展をMFC上に構築する必要があることを示唆する新たな逆数式を提案する。
関連論文リスト
- A Single Online Agent Can Efficiently Learn Mean Field Games [16.00164239349632]
平均場ゲーム (MFGs) は大規模人口システムの振る舞いをモデル化するための有望なフレームワークである。
本稿では,オンラインサンプルを用いてMFNEを学習できるオンライン単エージェントモデルフリー学習方式を提案する。
論文 参考訳(メタデータ) (2024-05-05T16:38:04Z) - Robust Multi-Agent Reinforcement Learning via Adversarial
Regularization: Theoretical Foundation and Stable Algorithms [79.61176746380718]
MARL(Multi-Agent Reinforcement Learning)はいくつかの領域で有望な結果を示している。
MARLポリシーは、しばしば堅牢性を欠き、環境の小さな変化に敏感である。
政策のリプシッツ定数を制御することにより、ロバスト性を得ることができることを示す。
政策のリプシッツ連続性を促進する新しい堅牢なMARLフレームワークであるERNIEを提案する。
論文 参考訳(メタデータ) (2023-10-16T20:14:06Z) - Decentralized Online Learning in Task Assignment Games for Mobile
Crowdsensing [55.07662765269297]
モバイルクラウドセンシングプラットフォーム(MCSP)は、センサオファーをMCSPに送り返してタスクに参加する意思を示すための、利用可能なモバイルユニット(MU)に順次、センシングタスクを発行する。
安定したタスク割り当ては、MCSPとMUの相反する目標、およびMUの要求する努力と嗜好の不確実性という2つの課題に対処する必要がある。
これらの課題を克服するために,衝突回避型マルチアームバンディットと戦略的自由センシング(CA-MAB-SFS)という,マッチング理論とオンライン学習を組み合わせた新たな分散アプローチを提案する。
論文 参考訳(メタデータ) (2023-09-19T13:07:15Z) - Regularization of the policy updates for stabilizing Mean Field Games [0.2348805691644085]
本研究は,非協調型マルチエージェント強化学習(MARL)の研究である。
複数のエージェントが同じ環境で相互作用し、個々のリターンを最大化するMARL。
提案アルゴリズムは,MF-PPO (Mean Field Proximal Policy Optimization) と命名し,OpenSpielフレームワークにおける提案手法の有効性を実証的に示す。
論文 参考訳(メタデータ) (2023-04-04T05:45:42Z) - Individual-Level Inverse Reinforcement Learning for Mean Field Games [16.79251229846642]
Mean Field IRL (MFIRL) は、MFGのための最初の専用のIRLフレームワークであり、協調環境と非協調環境の両方を扱うことができる。
未知のダイナミクスを持つMFGに対して有効な実用的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-02-13T20:35:01Z) - Reinforcement Learning for Mean Field Games, with Applications to
Economics [0.0]
平均場ゲーム(MFG)および平均場制御問題(平均場制御問題、平均場制御問題、平均場制御問題、平均場制御問題、平均場制御問題、平均場制御問題、平均場制御問題)は、エージェントの連続体を持つゲームにおいてナッシュ平衡または社会的最適性を研究するためのフレームワークである。
本稿では,MFGとMFCのためのRLを用いた2つの時間スケールアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-25T16:45:04Z) - Concave Utility Reinforcement Learning: the Mean-field Game viewpoint [42.403650997341806]
Concave Utility Reinforcement Learning (CURL) は、エージェントのポリシーによって引き起こされる占有度測定において、線形から凹凸ユーティリティまでRLを拡張する。
このより一般的なパラダイムは、古典的なベルマン方程式を無効にし、新しいアルゴリズムを要求する。
CURLは平均フィールドゲーム(MFG)のサブクラスであることを示す。
論文 参考訳(メタデータ) (2021-06-07T16:51:07Z) - Dealing with Non-Stationarity in Multi-Agent Reinforcement Learning via
Trust Region Decomposition [52.06086375833474]
非定常性は多エージェント強化学習における厄介な問題である。
ポリシーシーケンスの定常性を明示的にモデル化するための$delta$-stationarity測定を導入する。
共同政策の分岐を推定するために,メッセージパッシングに基づく信頼領域分解ネットワークを提案する。
論文 参考訳(メタデータ) (2021-02-21T14:46:50Z) - Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field
Control/Game in Continuous Time [109.06623773924737]
線形二乗平均場制御とゲームに対するポリシー勾配法について検討する。
線形速度で最適解に収束し, 合成シミュレーションにより検証した。
論文 参考訳(メタデータ) (2020-08-16T06:34:11Z) - Breaking the Curse of Many Agents: Provable Mean Embedding Q-Iteration
for Mean-Field Reinforcement Learning [135.64775986546505]
我々はマルチエージェント強化学習(MARL)におけるエージェントの対称性を利用する
我々は,平均場MARLを解くMF-FQIアルゴリズムを提案し,MF-FQIアルゴリズムの非漸近解析を確立する。
MF-FQIアルゴリズムは、多くの観測エージェントがMF-FQIアルゴリズムの性能を向上させるという意味で、「多くのエージェントの恵み」を享受する。
論文 参考訳(メタデータ) (2020-06-21T21:45:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。