Fugu-MT 論文翻訳(概要): Finite-Sample Convergence Bounds for Trust Region Policy Optimization in Mean-Field Games

論文の概要: Finite-Sample Convergence Bounds for Trust Region Policy Optimization in Mean-Field Games

arxiv url: http://arxiv.org/abs/2505.22781v1
Date: Wed, 28 May 2025 18:50:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-30 18:14:07.48975
Title: Finite-Sample Convergence Bounds for Trust Region Policy Optimization in Mean-Field Games
Title（参考訳）: 平均フィールドゲームにおける信頼領域政策最適化のための有限サンプル収束境界
Authors: Antonio Ocello, Daniil Tiapkin, Lorenzo Mancini, Mathieu Laurière, Eric Moulines,
Abstract要約: 有限状態空間におけるエルゴード平均フィールドゲーム(MFG)の近似ナッシュ平衡を計算するために設計された新しいアルゴリズムを提案する。 MFG文学における標準的な仮定の下で、我々はMF-TRPOの厳密な分析を行い、その収束に関する理論的保証を確立する。この研究は、RL法を平均場決定法でブリッジすることでMFG最適化を推し進め、複雑なマルチエージェント問題の解法に理論的に根ざしたアプローチを提供する。
参考スコア（独自算出の注目度）: 14.104031043622351
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce Mean-Field Trust Region Policy Optimization (MF-TRPO), a novel algorithm designed to compute approximate Nash equilibria for ergodic Mean-Field Games (MFG) in finite state-action spaces. Building on the well-established performance of TRPO in the reinforcement learning (RL) setting, we extend its methodology to the MFG framework, leveraging its stability and robustness in policy optimization. Under standard assumptions in the MFG literature, we provide a rigorous analysis of MF-TRPO, establishing theoretical guarantees on its convergence. Our results cover both the exact formulation of the algorithm and its sample-based counterpart, where we derive high-probability guarantees and finite sample complexity. This work advances MFG optimization by bridging RL techniques with mean-field decision-making, offering a theoretically grounded approach to solving complex multi-agent problems.
Abstract（参考訳）: MF-TRPO(Mean-Field Trust Region Policy Optimization)は、有限状態空間におけるエルゴード平均場ゲーム(MFG)に対する近似的なNash平衡を計算するために設計された新しいアルゴリズムである。強化学習(RL)設定におけるTRPOの確立した性能に基づいて、その方法論をMFGフレームワークに拡張し、政策最適化における安定性と堅牢性を活用する。 MFG文学における標準的な仮定の下で、我々はMF-TRPOの厳密な分析を行い、その収束に関する理論的保証を確立する。この結果は,アルゴリズムの正確な定式化と,高確率保証と有限標本複雑性を導出するサンプルベースアルゴリズムの両方を包含する。この研究は、RL法を平均場決定法でブリッジすることでMFG最適化を推し進め、複雑なマルチエージェント問題の解法に理論的に根ざしたアプローチを提供する。

関連論文リスト

PPO in the Fisher-Rao geometry [0.0]
PPO(Proximal Policy Optimization)は、強化学習のアルゴリズムとして広く採用されている。その人気にもかかわらず、PPOは政策改善と収束に関する正式な理論的保証を欠いている。本稿では,フィッシャー・ラオ幾何におけるより強いサロゲートを導出し,新しい変種であるフィッシャー・ラオPPO(FR-PPO)を導出する。
論文参考訳（メタデータ） (2025-06-04T09:23:27Z)
RL-finetuning LLMs from on- and off-policy data with a single algorithm [53.70731390624718]
大規模言語モデルを微調整するための新しい強化学習アルゴリズム(AGRO)を提案する。 AGROは生成整合性の概念を利用しており、最適ポリシーはモデルの任意の世代間での整合性の概念を満たすと述べている。サンプルベースの政策勾配による最適解を求めるアルゴリズムを導出し,その収束に関する理論的保証を提供する。
論文参考訳（メタデータ） (2025-03-25T12:52:38Z)
Efficient and Scalable Deep Reinforcement Learning for Mean Field Control Games [16.62770187749295]
平均場制御ゲーム(MFCG)は、無限に多くの相互作用するエージェントのシステムを解析するための強力な理論的枠組みを提供する。本稿では,MFCGの近似平衡解に対する拡張性のある深層強化学習(RL)手法を提案する。
論文参考訳（メタデータ） (2024-12-28T02:04:53Z)
Maximum Causal Entropy IRL in Mean-Field Games and GNEP Framework for Forward RL [2.867517731896504]
本稿では、離散時間強化フィールドゲーム(MFFG)における因果エントロピー強化学習(IRL)の利用について検討する。 MFFGは一般ナッシュ問題(GNEP)として非作用状態勾配のデータを生成する
論文参考訳（メタデータ） (2024-01-12T13:22:03Z)
On the Statistical Efficiency of Mean-Field Reinforcement Learning with General Function Approximation [20.66437196305357]
平均フィールド制御(MFC)および平均フィールドゲーム(MFG)における強化学習の基本統計的効率を一般モデルに基づく関数近似を用いて検討する。我々は平均場モデルクラス固有の複雑さを特徴付ける平均場モデルベースエルダー次元(MF-MBED)という新しい概念を導入する。
論文参考訳（メタデータ） (2023-05-18T20:00:04Z)
Local Optimization Achieves Global Optimality in Multi-Agent Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文参考訳（メタデータ） (2023-05-08T16:20:03Z)
Trust-Region-Free Policy Optimization for Stochastic Policies [60.52463923712565]
本研究では,政策に対する信頼領域の制約が,基礎となるモノトニック改善の保証を損なうことなく,信頼領域のない制約によって安全に置き換えられることを示す。我々は,TREFree(Trust-Region-Free Policy Optimization)と呼ばれるアルゴリズムを,信頼領域の制約が不要であるとして明示する。
論文参考訳（メタデータ） (2023-02-15T23:10:06Z)
Bounded Robustness in Reinforcement Learning via Lexicographic Objectives [54.00072722686121]
強化学習における政策の堅牢性は、いかなるコストでも望ましいものではないかもしれない。本研究では,任意の観測ノイズに対して,政策が最大限に頑健になる方法について検討する。本稿では,どのような政策アルゴリズムにも適用可能なロバストネス誘導方式を提案する。
論文参考訳（メタデータ） (2022-09-30T08:53:18Z)
Monotonic Improvement Guarantees under Non-stationarity for Decentralized PPO [66.5384483339413]
我々は,MARL(Multi-Agent Reinforcement Learning)における分散政策の最適化のための新しい単調改善保証を提案する。本研究では,訓練中のエージェント数に基づいて,独立した比率を限定することにより,信頼領域の制約を原則的に効果的に実施可能であることを示す。
論文参考訳（メタデータ） (2022-01-31T20:39:48Z)
Permutation Invariant Policy Optimization for Mean-Field Multi-Agent Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文参考訳（メタデータ） (2021-05-18T04:35:41Z)
CRPO: A New Approach for Safe Reinforcement Learning with Convergence Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文参考訳（メタデータ） (2020-11-11T16:05:14Z)
Fast Global Convergence of Natural Policy Gradient Methods with Entropy Regularization [44.24881971917951]
自然政策勾配法(NPG)は、最も広く使われている政策最適化アルゴリズムの一つである。我々は,ソフトマックスパラメータ化の下で,エントロピー規則化NPG法に対する収束保証を開発する。この結果から, エントロピー正則化の役割を浮き彫りにした。
論文参考訳（メタデータ） (2020-07-13T17:58:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。