論文の概要: On the Statistical Efficiency of Mean Field Reinforcement Learning with
General Function Approximation
- arxiv url: http://arxiv.org/abs/2305.11283v3
- Date: Sun, 24 Sep 2023 11:34:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 02:40:43.835003
- Title: On the Statistical Efficiency of Mean Field Reinforcement Learning with
General Function Approximation
- Title(参考訳): 一般関数近似を用いた平均場強化学習の統計的効率について
- Authors: Jiawei Huang, Batuhan Yardim, Niao He
- Abstract要約: 平均フィールド制御(MFC)と平均フィールドゲーム(MFG)における強化学習の統計的効率を一般関数近似を用いて検討する。
平均場モデルに基づくエルダー次元 (MBED) と呼ばれる新しい概念を導入する。
- 参考スコア(独自算出の注目度): 23.224683209113948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the statistical efficiency of Reinforcement Learning
in Mean-Field Control (MFC) and Mean-Field Game (MFG) with general function
approximation. We introduce a new concept called Mean-Field Model-Based Eluder
Dimension (MBED), which subsumes a rich family of Mean-Field RL problems.
Additionally, we propose algorithms based on Optimistic Maximal Likelihood
Estimation, which can return an $\epsilon$-optimal policy for MFC or an
$\epsilon$-Nash Equilibrium policy for MFG, with sample complexity polynomial
w.r.t. relevant parameters and independent of the number of states, actions and
the number of agents. Notably, our results only require a mild assumption of
Lipschitz continuity on transition dynamics comparing with previous works.
- Abstract(参考訳): 本稿では,平均場制御(MFC)および平均場制御(MFG)における強化学習の統計的効率を一般関数近似を用いて検討する。
平均場モデルに基づくエルダー次元 (mbed) と呼ばれる新しい概念を導入し, 平均場 rl 問題の豊富な族を仮定した。
さらに, mfc の $\epsilon$-optimal policy や mfg の $\epsilon$-nash equilibrium policy を,関連するパラメータのサンプル複雑性多項式 w.r.t を用いて返却し,状態数,アクション数,エージェント数に依存しない楽観的最大値推定アルゴリズムを提案する。
特に,これまでの研究と比較して,遷移ダイナミクスに対するリプシッツ連続性の軽度な仮定しか必要としない。
関連論文リスト
- Provable Risk-Sensitive Distributional Reinforcement Learning with
General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。
モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-02-28T08:43:18Z) - Model-Based RL for Mean-Field Games is not Statistically Harder than
Single-Agent RL [64.90038012690403]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。
本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文 参考訳(メタデータ) (2024-02-08T14:54:47Z) - Ensemble Kalman Filtering Meets Gaussian Process SSM for Non-Mean-Field
and Online Inference [50.91823345296243]
我々は,非平均場(NMF)変動推定フレームワークにアンサンブルカルマンフィルタ(EnKF)を導入し,潜在状態の後方分布を近似する。
EnKFとGPSSMのこの新しい結婚は、変分分布の学習における広範なパラメータ化の必要性をなくすだけでなく、エビデンスの下限(ELBO)の解釈可能でクローズドな近似を可能にする。
得られたEnKF支援オンラインアルゴリズムは、データ適合精度を確保しつつ、モデル正規化を組み込んで過度適合を緩和し、目的関数を具現化する。
論文 参考訳(メタデータ) (2023-12-10T15:22:30Z) - On the Consistency of Maximum Likelihood Estimation of Probabilistic
Principal Component Analysis [1.0528389538549636]
PPCAは科学や工学から定量的ファイナンスまで幅広い分野の応用がある。
様々な分野に適用可能であるにもかかわらず、このモデルに対する最大可能性(ML)解の健全性を正当化する理論的な保証はほとんど存在しない。
商位相空間を用いた新しいアプローチを提案し、特に、最大極大解が適切な商ユークリッド空間において一貫したことを示す。
論文 参考訳(メタデータ) (2023-11-08T22:40:45Z) - A General Framework for Sample-Efficient Function Approximation in
Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。
最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。
本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:16Z) - Nearly Optimal Latent State Decoding in Block MDPs [74.51224067640717]
エピソードブロック MDP では、意思決定者は少数の潜在状態から生成される豊富な観測やコンテキストにアクセスすることができる。
まず、固定動作ポリシーに基づいて生成されたデータに基づいて、潜時状態復号関数を推定することに興味がある。
次に、報酬のないフレームワークにおいて、最適に近いポリシーを学習する問題について研究する。
論文 参考訳(メタデータ) (2022-08-17T18:49:53Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Counterfactual Explanations for Arbitrary Regression Models [8.633492031855655]
ベイズ最適化に基づく対実的説明法(CFE)を提案する。
提案手法は,任意の回帰モデルと特徴空間や動作可能なリコースなどの制約をサポートする,グローバル収束探索アルゴリズムである。
論文 参考訳(メタデータ) (2021-06-29T09:53:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。