論文の概要: Oracle-free Reinforcement Learning in Mean-Field Games along a Single
Sample Path
- arxiv url: http://arxiv.org/abs/2208.11639v1
- Date: Wed, 24 Aug 2022 16:22:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-25 13:37:26.527750
- Title: Oracle-free Reinforcement Learning in Mean-Field Games along a Single
Sample Path
- Title(参考訳): 1つのサンプルパスに沿った平均場ゲームにおけるoracleフリー強化学習
- Authors: Muhammad Aneeq uz Zaman, Alec Koppel, Sujay Bhatt, Tamer Ba\c{s}ar
- Abstract要約: 汎用エージェントの単一サンプルパスを用いて平均フィールドと最適ポリシーを推定するアルゴリズムを開発した。
渋滞ゲームにおけるサンドボックス学習アルゴリズムの有効性を実証的に実証した。
- 参考スコア(独自算出の注目度): 5.926203312586109
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider online reinforcement learning in Mean-Field Games. In contrast to
the existing works, we alleviate the need for a mean-field oracle by developing
an algorithm that estimates the mean-field and the optimal policy using a
single sample path of the generic agent. We call this Sandbox Learning, as it
can be used as a warm-start for any agent operating in a multi-agent
non-cooperative setting. We adopt a two timescale approach in which an online
fixed-point recursion for the mean-field operates on a slower timescale and in
tandem with a control policy update on a faster timescale for the generic
agent. Under a sufficient exploration condition, we provide finite sample
convergence guarantees in terms of convergence of the mean-field and control
policy to the mean-field equilibrium. The sample complexity of the Sandbox
learning algorithm is $\mathcal{O}(\epsilon^{-4})$. Finally, we empirically
demonstrate effectiveness of the sandbox learning algorithm in a congestion
game.
- Abstract(参考訳): 平均フィールドゲームにおけるオンライン強化学習について考察する。
既存の研究とは対照的に,汎用エージェントの単一サンプルパスを用いて平均フィールドと最適ポリシーを推定するアルゴリズムを開発することにより,平均フィールドオラクルの必要性を緩和する。
これをサンドボックス学習と呼び、マルチエージェント非協調環境で動作しているエージェントのウォームスタートとして使用できる。
我々は、平均場に対するオンライン固定点再帰がより遅い時間スケールで動作し、汎用エージェントのより高速な時間スケールに対する制御ポリシー更新と連動する2つの時間スケールアプローチを採用する。
十分な探索条件下では、平均場と平均場平衡への制御ポリシーの収束の観点から有限サンプル収束保証を提供する。
サンドボックス学習アルゴリズムのサンプル複雑性は$\mathcal{o}(\epsilon^{-4})$である。
最後に,混雑ゲームにおけるサンドボックス学習アルゴリズムの有効性を実証する。
関連論文リスト
- Regularization of the policy updates for stabilizing Mean Field Games [0.2348805691644085]
本研究は,非協調型マルチエージェント強化学習(MARL)の研究である。
複数のエージェントが同じ環境で相互作用し、個々のリターンを最大化するMARL。
提案アルゴリズムは,MF-PPO (Mean Field Proximal Policy Optimization) と命名し,OpenSpielフレームワークにおける提案手法の有効性を実証的に示す。
論文 参考訳(メタデータ) (2023-04-04T05:45:42Z) - Beyond ADMM: A Unified Client-variance-reduced Adaptive Federated
Learning Framework [82.36466358313025]
我々はFedVRAと呼ばれる原始二重FLアルゴリズムを提案し、このアルゴリズムはグローバルモデルの分散還元レベルとバイアスを適応的に制御することができる。
半教師付き画像分類タスクに基づく実験は,既存の手法よりもFedVRAの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-12-03T03:27:51Z) - Centralized Model and Exploration Policy for Multi-Agent RL [13.661446184763117]
部分的に観察可能な完全協調型マルチエージェント設定(Dec-POMDP)での強化学習は、現実世界の多くの課題に対処するために使用できる。
Dec-POMDPの現在のRLアルゴリズムは、サンプルの複雑さに悩まされている。
モデルベースアルゴリズムであるMARCOを3つの協調通信タスクで提案し、サンプル効率を最大20倍改善する。
論文 参考訳(メタデータ) (2021-07-14T00:34:08Z) - Learning Expected Emphatic Traces for Deep RL [32.984880782688535]
オフポリシーサンプリングと経験リプレイは、サンプル効率を改善し、モデルフリーの時間差学習手法をスケールするための鍵となる。
リプレイと組み合わせることができるマルチステップ強調重み付けと、必要な強調重み付けを学習するための時間反転TD学習アルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-07-12T13:14:03Z) - Online Sub-Sampling for Reinforcement Learning with General Function
Approximation [111.01990889581243]
本稿では,RLアルゴリズムによって収集されたデータポイントの情報取得量を測定する,効率的なオンラインサブサンプリングフレームワークを確立する。
複雑性バウンド関数クラスを持つ値ベースのメソッドの場合、$proptooperatornamepolylog(K)$ timesに対してのみポリシーを更新する必要がある。
少なくとも$Omega(K)$倍のポリシーを更新する既存のアプローチとは対照的に、当社のアプローチはポリシーの解決における最適化コールの数を劇的に削減します。
論文 参考訳(メタデータ) (2021-06-14T07:36:25Z) - Multi-Agent Off-Policy TD Learning: Finite-Time Analysis with
Near-Optimal Sample Complexity and Communication Complexity [13.100926925535578]
マルチエージェントオフポリシーTD学習のための2つの分散型TD補正(TDC)アルゴリズムを開発しています。
提案アルゴリズムは,エージェントの行動,ポリシー,報酬の完全なプライバシを保持し,サンプリングのばらつきと通信頻度を低減するためにミニバッチサンプリングを採用する。
論文 参考訳(メタデータ) (2021-03-24T12:48:08Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z) - Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field
Control/Game in Continuous Time [109.06623773924737]
線形二乗平均場制御とゲームに対するポリシー勾配法について検討する。
線形速度で最適解に収束し, 合成シミュレーションにより検証した。
論文 参考訳(メタデータ) (2020-08-16T06:34:11Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z) - Breaking the Sample Size Barrier in Model-Based Reinforcement Learning
with a Generative Model [50.38446482252857]
本稿では、生成モデル(シミュレータ)へのアクセスを想定して、強化学習のサンプル効率について検討する。
最初に$gamma$-discounted infinite-horizon Markov decision process (MDPs) with state space $mathcalS$ and action space $mathcalA$を考える。
対象の精度を考慮すれば,モデルに基づく計画アルゴリズムが最小限のサンプルの複雑さを実現するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-05-26T17:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。