論文の概要: On the Statistical Efficiency of Mean Field Reinforcement Learning with
General Function Approximation
- arxiv url: http://arxiv.org/abs/2305.11283v2
- Date: Mon, 19 Jun 2023 12:04:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 02:13:01.867076
- Title: On the Statistical Efficiency of Mean Field Reinforcement Learning with
General Function Approximation
- Title(参考訳): 一般関数近似を用いた平均場強化学習の統計的効率について
- Authors: Jiawei Huang, Batuhan Yardim, Niao He
- Abstract要約: 平均フィールド制御(MFC)と平均フィールドゲーム(MFG)における強化学習の統計的効率を一般関数近似を用いて検討する。
平均場モデルに基づくエルダー次元 (MBED) と呼ばれる新しい概念を導入する。
- 参考スコア(独自算出の注目度): 33.62273180305809
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the statistical efficiency of Reinforcement Learning
in Mean-Field Control (MFC) and Mean-Field Game (MFG) with general function
approximation. We introduce a new concept called Mean-Field Model-Based Eluder
Dimension (MBED), which subsumes a rich family of Mean-Field RL problems.
Additionally, we propose algorithms based on Optimistic Maximal Likelihood
Estimation, which can return an $\epsilon$-optimal policy for MFC or an
$\epsilon$-Nash Equilibrium policy for MFG, with sample complexity polynomial
w.r.t. relevant parameters and independent of the number of states, actions and
the number of agents. Notably, our results only require a mild assumption of
Lipschitz continuity on transition dynamics and avoid strong structural
assumptions in previous work. Finally, in the tabular setting, given the access
to a generative model, we establish an exponential lower bound for MFC setting,
while providing a novel sample-efficient model elimination algorithm to
approximate equilibrium in MFG setting. Our results reveal a fundamental
separation between RL for single-agent, MFC, and MFG from the sample efficiency
perspective.
- Abstract(参考訳): 本稿では,平均場制御(MFC)および平均場制御(MFG)における強化学習の統計的効率を一般関数近似を用いて検討する。
平均場モデルに基づくエルダー次元 (mbed) と呼ばれる新しい概念を導入し, 平均場 rl 問題の豊富な族を仮定した。
さらに, mfc の $\epsilon$-optimal policy や mfg の $\epsilon$-nash equilibrium policy を,関連するパラメータのサンプル複雑性多項式 w.r.t を用いて返却し,状態数,アクション数,エージェント数に依存しない楽観的最大値推定アルゴリズムを提案する。
特に,我々は遷移ダイナミクスに対するリプシッツ連続性の軽度な仮定と,前回の作業における強固な構造的仮定のみを必要とする。
最後に、生成モデルへのアクセスを前提として、MFC設定の指数的下限を確立するとともに、MFG設定における平衡を近似する新しいサンプル効率モデル除去アルゴリズムを提供する。
以上の結果から, 単エージェント, MFC, MFGに対するRLの分離は, 試料効率の観点から明らかにされた。
関連論文リスト
- On the Sample Complexity of a Policy Gradient Algorithm with Occupancy Approximation for General Utility Reinforcement Learning [23.623705771223303]
最大誤差推定(MLE)を用いた関数近似クラス内の占有度を近似する手法を提案する。
PG-OMAのサンプル複雑性解析により,我々の占有度測定誤差は,状態作用空間のサイズではなく,関数近似クラスの寸法に比例してしかスケールしないことを示した。
論文 参考訳(メタデータ) (2024-10-05T10:24:07Z) - Provable Risk-Sensitive Distributional Reinforcement Learning with
General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。
モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-02-28T08:43:18Z) - Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。
本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文 参考訳(メタデータ) (2024-02-08T14:54:47Z) - On the Consistency of Maximum Likelihood Estimation of Probabilistic
Principal Component Analysis [1.0528389538549636]
PPCAは科学や工学から定量的ファイナンスまで幅広い分野の応用がある。
様々な分野に適用可能であるにもかかわらず、このモデルに対する最大可能性(ML)解の健全性を正当化する理論的な保証はほとんど存在しない。
商位相空間を用いた新しいアプローチを提案し、特に、最大極大解が適切な商ユークリッド空間において一貫したことを示す。
論文 参考訳(メタデータ) (2023-11-08T22:40:45Z) - A General Framework for Sample-Efficient Function Approximation in
Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。
最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。
本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:16Z) - Nearly Optimal Latent State Decoding in Block MDPs [74.51224067640717]
エピソードブロック MDP では、意思決定者は少数の潜在状態から生成される豊富な観測やコンテキストにアクセスすることができる。
まず、固定動作ポリシーに基づいて生成されたデータに基づいて、潜時状態復号関数を推定することに興味がある。
次に、報酬のないフレームワークにおいて、最適に近いポリシーを学習する問題について研究する。
論文 参考訳(メタデータ) (2022-08-17T18:49:53Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Reinforcement Learning for Adaptive Mesh Refinement [63.7867809197671]
マルコフ決定過程としてのAMRの新規な定式化を提案し,シミュレーションから直接改良政策を訓練するために深部強化学習を適用した。
これらのポリシーアーキテクチャのモデルサイズはメッシュサイズに依存しないため、任意に大きく複雑なシミュレーションにスケールします。
論文 参考訳(メタデータ) (2021-03-01T22:55:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。