論文の概要: Scalable Deep Reinforcement Learning Algorithms for Mean Field Games
- arxiv url: http://arxiv.org/abs/2203.11973v1
- Date: Tue, 22 Mar 2022 18:10:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-24 13:54:14.428839
- Title: Scalable Deep Reinforcement Learning Algorithms for Mean Field Games
- Title(参考訳): 平均フィールドゲームのためのスケーラブル深層強化学習アルゴリズム
- Authors: Mathieu Lauri\`ere, Sarah Perrin, Sertan Girgin, Paul Muller, Ayush
Jain, Theophile Cabannes, Georgios Piliouras, Julien P\'erolat, Romuald
\'Elie, Olivier Pietquin, Matthieu Geist
- Abstract要約: 平均フィールドゲーム (MFGs) は、非常に多くの戦略エージェントを持つゲームを効率的に近似するために導入された。
近年,モデルフリー強化学習(RL)手法を用いて,MFGの学習均衡の課題が活発化している。
MFGを解くための既存のアルゴリズムは戦略や$q$-valuesのような近似量の混合を必要とする。
本稿では,この欠点に対処する2つの手法を提案する。まず,歴史データの蒸留からニューラルネットワークへの混合戦略を学習し,Factitious Playアルゴリズムに適用する。
2つ目はオンライン混合方式である。
- 参考スコア(独自算出の注目度): 60.550128966505625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mean Field Games (MFGs) have been introduced to efficiently approximate games
with very large populations of strategic agents. Recently, the question of
learning equilibria in MFGs has gained momentum, particularly using model-free
reinforcement learning (RL) methods. One limiting factor to further scale up
using RL is that existing algorithms to solve MFGs require the mixing of
approximated quantities such as strategies or $q$-values. This is non-trivial
in the case of non-linear function approximation that enjoy good generalization
properties, e.g. neural networks. We propose two methods to address this
shortcoming. The first one learns a mixed strategy from distillation of
historical data into a neural network and is applied to the Fictitious Play
algorithm. The second one is an online mixing method based on regularization
that does not require memorizing historical data or previous estimates. It is
used to extend Online Mirror Descent. We demonstrate numerically that these
methods efficiently enable the use of Deep RL algorithms to solve various MFGs.
In addition, we show that these methods outperform SotA baselines from the
literature.
- Abstract(参考訳): 平均フィールドゲーム (MFGs) は、非常に多くの戦略エージェントを持つゲームを効率的に近似するために導入された。
近年,モデルフリー強化学習(RL)手法を用いて,MFGの学習均衡の課題が活発化している。
RLを用いてさらにスケールアップするための制限要因の1つは、MFGを解く既存のアルゴリズムが戦略や$q$-valuesのような近似量の混合を必要とすることである。
これは、ニューラルネットワークのような優れた一般化特性を持つ非線形関数近似の場合、自明ではない。
この欠点に対処する2つの方法を提案する。
1つ目は、歴史データの蒸留からニューラルネットワークへの混合戦略を学び、Fictitious Playアルゴリズムに適用する。
2つ目は、履歴データや過去の推定を記憶する必要のない正規化に基づくオンライン混合手法である。
Online Mirror Descentの拡張に使われる。
これらの手法がディープRLアルゴリズムを用いて様々なMFGを効率的に解くことができることを示す。
さらに,これらの手法が論文からSotAベースラインを上回っていることを示す。
関連論文リスト
- Provably Efficient Information-Directed Sampling Algorithms for Multi-Agent Reinforcement Learning [50.92957910121088]
本研究は,情報指向サンプリング(IDS)の原理に基づくマルチエージェント強化学習(MARL)のための新しいアルゴリズムの設計と解析を行う。
エピソディックな2プレーヤゼロサムMGに対して、ナッシュ平衡を学習するための3つのサンプル効率アルゴリズムを提案する。
我々は、Reg-MAIDSをマルチプレイヤー汎用MGに拡張し、ナッシュ平衡または粗相関平衡をサンプル効率良く学習できることを証明する。
論文 参考訳(メタデータ) (2024-04-30T06:48:56Z) - Rethinking Population-assisted Off-policy Reinforcement Learning [7.837628433605179]
オフ政治強化学習アルゴリズムは、限られた探索のために局所最適への収束に苦慮する。
人口ベースのアルゴリズムは自然探索戦略を提供するが、ブラックボックス演算子は非効率である。
最近のアルゴリズムはこれら2つの手法を統合し、共有再生バッファを介してそれらを接続している。
論文 参考訳(メタデータ) (2023-05-04T15:53:00Z) - Deep Learning for Mean Field Games with non-separable Hamiltonians [0.0]
本稿では,高次元平均場ゲーム(MFG)の解法を提案する。
2つのニューラルネットワークを用いて、MFGシステムの未知の解とフォワードバック条件を近似する。
提案手法は,少数のイテレーションでも効率的であり,最大300次元の処理を単一層で行うことができる。
論文 参考訳(メタデータ) (2023-01-07T15:39:48Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z) - Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。
本稿では,更新ルール全体を検出するメタラーニング手法を提案する。
これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文 参考訳(メタデータ) (2020-07-17T07:38:39Z) - Can Increasing Input Dimensionality Improve Deep Reinforcement Learning? [15.578423102700764]
本稿では,ニューラルネットを用いたオンライン特徴抽出ネットワーク(OFENet)を提案する。
我々はRLエージェントが低次元状態観測よりも高次元表現でより効率的に学習できることを示す。
論文 参考訳(メタデータ) (2020-03-03T16:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。