Fugu-MT 論文翻訳(概要): On the Statistical Efficiency of Mean-Field Reinforcement Learning with General Function Approximation

論文の概要: On the Statistical Efficiency of Mean-Field Reinforcement Learning with General Function Approximation

arxiv url: http://arxiv.org/abs/2305.11283v5
Date: Wed, 02 Oct 2024 15:22:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 18:37:58.815528
Title: On the Statistical Efficiency of Mean-Field Reinforcement Learning with General Function Approximation
Title（参考訳）: 一般関数近似を用いた平均場強化学習の統計的効率について
Authors: Jiawei Huang, Batuhan Yardim, Niao He,
Abstract要約: 平均フィールド制御(MFC)および平均フィールドゲーム(MFG)における強化学習の基本統計的効率を一般モデルに基づく関数近似を用いて検討する。我々は平均場モデルクラス固有の複雑さを特徴付ける平均場モデルベースエルダー次元(MF-MBED)という新しい概念を導入する。
参考スコア（独自算出の注目度）: 20.66437196305357
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we study the fundamental statistical efficiency of Reinforcement Learning in Mean-Field Control (MFC) and Mean-Field Game (MFG) with general model-based function approximation. We introduce a new concept called Mean-Field Model-Based Eluder Dimension (MF-MBED), which characterizes the inherent complexity of mean-field model classes. We show that a rich family of Mean-Field RL problems exhibits low MF-MBED. Additionally, we propose algorithms based on maximal likelihood estimation, which can return an $\epsilon$-optimal policy for MFC or an $\epsilon$-Nash Equilibrium policy for MFG. The overall sample complexity depends only polynomially on MF-MBED, which is potentially much lower than the size of state-action space. Compared with previous works, our results only require the minimal assumptions including realizability and Lipschitz continuity.
Abstract（参考訳）: 本稿では,平均場制御(MFC)および平均場制御(MFG)における強化学習の基本統計的効率について,一般モデルに基づく関数近似を用いて検討する。我々は平均場モデルクラス固有の複雑さを特徴付ける平均場モデルベースエルダー次元(MF-MBED)という新しい概念を導入する。平均場RL問題に富んだファミリーはMF-MBEDが低いことを示す。さらに,MFCの$\epsilon$-optimal PolicyやMFGの$\epsilon$-Nash Equilibrium Policyを返却するアルゴリズムを提案する。全体のサンプルの複雑さはMF-MBEDにのみ依存するが、これは状態-作用空間のサイズよりもはるかに低い可能性がある。これまでの研究と比較して、我々の結果は実現可能性やリプシッツ連続性を含む最小限の仮定しか必要としない。

関連論文リスト

Finite-Sample Convergence Bounds for Trust Region Policy Optimization in Mean-Field Games [14.104031043622351]
有限状態空間におけるエルゴード平均フィールドゲーム(MFG)の近似ナッシュ平衡を計算するために設計された新しいアルゴリズムを提案する。 MFG文学における標準的な仮定の下で、我々はMF-TRPOの厳密な分析を行い、その収束に関する理論的保証を確立する。この研究は、RL法を平均場決定法でブリッジすることでMFG最適化を推し進め、複雑なマルチエージェント問題の解法に理論的に根ざしたアプローチを提供する。
論文参考訳（メタデータ） (2025-05-28T18:50:25Z)
Outcome-Based Online Reinforcement Learning: Algorithms and Fundamental Limits [58.63897489864948]
結果に基づくフィードバックによる強化学習は、根本的な課題に直面します。適切なアクションにクレジットを割り当てるには? 本稿では,一般関数近似を用いたオンラインRLにおけるこの問題の包括的解析を行う。
論文参考訳（メタデータ） (2025-05-26T17:44:08Z)
On the Sample Complexity of a Policy Gradient Algorithm with Occupancy Approximation for General Utility Reinforcement Learning [23.623705771223303]
最大誤差推定(MLE)を用いた関数近似クラス内の占有度を近似する手法を提案する。 PG-OMAのサンプル複雑性解析により,我々の占有度測定誤差は,状態作用空間のサイズではなく,関数近似クラスの寸法に比例してしかスケールしないことを示した。
論文参考訳（メタデータ） (2024-10-05T10:24:07Z)
Provable Risk-Sensitive Distributional Reinforcement Learning with General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文参考訳（メタデータ） (2024-02-28T08:43:18Z)
Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文参考訳（メタデータ） (2024-02-08T14:54:47Z)
On the Consistency of Maximum Likelihood Estimation of Probabilistic Principal Component Analysis [1.0528389538549636]
PPCAは科学や工学から定量的ファイナンスまで幅広い分野の応用がある。様々な分野に適用可能であるにもかかわらず、このモデルに対する最大可能性(ML)解の健全性を正当化する理論的な保証はほとんど存在しない。商位相空間を用いた新しいアプローチを提案し、特に、最大極大解が適切な商ユークリッド空間において一貫したことを示す。
論文参考訳（メタデータ） (2023-11-08T22:40:45Z)
A General Framework for Sample-Efficient Function Approximation in Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-09-30T17:59:16Z)
Nearly Optimal Latent State Decoding in Block MDPs [74.51224067640717]
エピソードブロック MDP では、意思決定者は少数の潜在状態から生成される豊富な観測やコンテキストにアクセスすることができる。まず、固定動作ポリシーに基づいて生成されたデータに基づいて、潜時状態復号関数を推定することに興味がある。次に、報酬のないフレームワークにおいて、最適に近いポリシーを学習する問題について研究する。
論文参考訳（メタデータ） (2022-08-17T18:49:53Z)
Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。コア最適化問題の実用的なパラメトリゼーションを提供する。
論文参考訳（メタデータ） (2021-07-08T18:01:02Z)
Reinforcement Learning for Adaptive Mesh Refinement [63.7867809197671]
マルコフ決定過程としてのAMRの新規な定式化を提案し,シミュレーションから直接改良政策を訓練するために深部強化学習を適用した。これらのポリシーアーキテクチャのモデルサイズはメッシュサイズに依存しないため、任意に大きく複雑なシミュレーションにスケールします。
論文参考訳（メタデータ） (2021-03-01T22:55:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。