Fugu-MT 論文翻訳(概要): On the Statistical Efficiency of Mean Field Reinforcement Learning with General Function Approximation

論文の概要: On the Statistical Efficiency of Mean Field Reinforcement Learning with General Function Approximation

arxiv url: http://arxiv.org/abs/2305.11283v3
Date: Sun, 24 Sep 2023 11:34:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-27 02:40:43.835003
Title: On the Statistical Efficiency of Mean Field Reinforcement Learning with General Function Approximation
Title（参考訳）: 一般関数近似を用いた平均場強化学習の統計的効率について
Authors: Jiawei Huang, Batuhan Yardim, Niao He
Abstract要約: 平均フィールド制御(MFC)と平均フィールドゲーム(MFG)における強化学習の統計的効率を一般関数近似を用いて検討する。平均場モデルに基づくエルダー次元 (MBED) と呼ばれる新しい概念を導入する。
参考スコア（独自算出の注目度）: 23.224683209113948
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we study the statistical efficiency of Reinforcement Learning in Mean-Field Control (MFC) and Mean-Field Game (MFG) with general function approximation. We introduce a new concept called Mean-Field Model-Based Eluder Dimension (MBED), which subsumes a rich family of Mean-Field RL problems. Additionally, we propose algorithms based on Optimistic Maximal Likelihood Estimation, which can return an $\epsilon$-optimal policy for MFC or an $\epsilon$-Nash Equilibrium policy for MFG, with sample complexity polynomial w.r.t. relevant parameters and independent of the number of states, actions and the number of agents. Notably, our results only require a mild assumption of Lipschitz continuity on transition dynamics comparing with previous works.
Abstract（参考訳）: 本稿では,平均場制御(MFC)および平均場制御(MFG)における強化学習の統計的効率を一般関数近似を用いて検討する。平均場モデルに基づくエルダー次元 (mbed) と呼ばれる新しい概念を導入し, 平均場 rl 問題の豊富な族を仮定した。さらに, mfc の $\epsilon$-optimal policy や mfg の $\epsilon$-nash equilibrium policy を,関連するパラメータのサンプル複雑性多項式 w.r.t を用いて返却し,状態数,アクション数,エージェント数に依存しない楽観的最大値推定アルゴリズムを提案する。特に,これまでの研究と比較して,遷移ダイナミクスに対するリプシッツ連続性の軽度な仮定しか必要としない。

関連論文リスト

FIRE: Multi-fidelity Regression with Distribution-conditioned In-context Learning using Tabular Foundation Models [3.8824066002669855]
MF(Multi-fidelity)レグレッションは、極端なデータ不均衡のレギュレーションでしばしば機能する。トレーニングフリーなMFフレームワークであるFIREを紹介する。 Fireは、最先端のGPベースまたはディープラーニングのMF回帰メソッドの7つよりもパフォーマンスタイムのトレードオフが強い。
論文参考訳（メタデータ） (2026-01-29T22:29:58Z)
Gaussian-Mixture-Model Q-Functions for Policy Iteration in Reinforcement Learning [7.056697401102689]
本稿では, ガウス混合モデル(GMM)のQ-関数損失の直接サロゲートとして, 関数近似を新たに導入する。これらのパラメトリックモデルはGMM-QFと呼ばれ、相当な表現能力を持っている。それらは、幅広い種類の函数に対する普遍近似である。
論文参考訳（メタデータ） (2025-12-21T15:00:32Z)
Finite-Sample Convergence Bounds for Trust Region Policy Optimization in Mean-Field Games [14.104031043622351]
有限状態空間におけるエルゴード平均フィールドゲーム(MFG)の近似ナッシュ平衡を計算するために設計された新しいアルゴリズムを提案する。 MFG文学における標準的な仮定の下で、我々はMF-TRPOの厳密な分析を行い、その収束に関する理論的保証を確立する。この研究は、RL法を平均場決定法でブリッジすることでMFG最適化を推し進め、複雑なマルチエージェント問題の解法に理論的に根ざしたアプローチを提供する。
論文参考訳（メタデータ） (2025-05-28T18:50:25Z)
Outcome-Based Online Reinforcement Learning: Algorithms and Fundamental Limits [58.63897489864948]
結果に基づくフィードバックによる強化学習は、根本的な課題に直面します。適切なアクションにクレジットを割り当てるには? 本稿では,一般関数近似を用いたオンラインRLにおけるこの問題の包括的解析を行う。
論文参考訳（メタデータ） (2025-05-26T17:44:08Z)
A Multi-Fidelity Control Variate Approach for Policy Gradient Estimation [22.095132833345776]
強化学習アルゴリズムは、運用システムへの展開や高価な高忠実度シミュレーションによるトレーニングには実用的ではない。低忠実度シミュレータは、ゼロショット転送には大きすぎるとしても、RLトレーニングに有用なデータを提供することができる。ターゲット環境から少量のデータを混合する多要素ポリシーロボティクス(Gs)を提案する。
論文参考訳（メタデータ） (2025-03-07T18:58:23Z)
On the Sample Complexity of a Policy Gradient Algorithm with Occupancy Approximation for General Utility Reinforcement Learning [23.623705771223303]
最大誤差推定(MLE)を用いた関数近似クラス内の占有度を近似する手法を提案する。 PG-OMAのサンプル複雑性解析により,我々の占有度測定誤差は,状態作用空間のサイズではなく,関数近似クラスの寸法に比例してしかスケールしないことを示した。
論文参考訳（メタデータ） (2024-10-05T10:24:07Z)
Provable Risk-Sensitive Distributional Reinforcement Learning with General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文参考訳（メタデータ） (2024-02-28T08:43:18Z)
Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文参考訳（メタデータ） (2024-02-08T14:54:47Z)
On the Consistency of Maximum Likelihood Estimation of Probabilistic Principal Component Analysis [1.0528389538549636]
PPCAは科学や工学から定量的ファイナンスまで幅広い分野の応用がある。様々な分野に適用可能であるにもかかわらず、このモデルに対する最大可能性(ML)解の健全性を正当化する理論的な保証はほとんど存在しない。商位相空間を用いた新しいアプローチを提案し、特に、最大極大解が適切な商ユークリッド空間において一貫したことを示す。
論文参考訳（メタデータ） (2023-11-08T22:40:45Z)
A General Framework for Sample-Efficient Function Approximation in Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-09-30T17:59:16Z)
Nearly Optimal Latent State Decoding in Block MDPs [74.51224067640717]
エピソードブロック MDP では、意思決定者は少数の潜在状態から生成される豊富な観測やコンテキストにアクセスすることができる。まず、固定動作ポリシーに基づいて生成されたデータに基づいて、潜時状態復号関数を推定することに興味がある。次に、報酬のないフレームワークにおいて、最適に近いポリシーを学習する問題について研究する。
論文参考訳（メタデータ） (2022-08-17T18:49:53Z)
Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。コア最適化問題の実用的なパラメトリゼーションを提供する。
論文参考訳（メタデータ） (2021-07-08T18:01:02Z)
Reinforcement Learning for Adaptive Mesh Refinement [63.7867809197671]
マルコフ決定過程としてのAMRの新規な定式化を提案し,シミュレーションから直接改良政策を訓練するために深部強化学習を適用した。これらのポリシーアーキテクチャのモデルサイズはメッシュサイズに依存しないため、任意に大きく複雑なシミュレーションにスケールします。
論文参考訳（メタデータ） (2021-03-01T22:55:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。