論文の概要: Model-free policy gradient for discrete-time mean-field control
- arxiv url: http://arxiv.org/abs/2601.11217v1
- Date: Fri, 16 Jan 2026 11:49:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.476832
- Title: Model-free policy gradient for discrete-time mean-field control
- Title(参考訳): 離散時間平均場制御のためのモデルフリーポリシー勾配
- Authors: Matthieu Meunier, Huyên Pham, Christoph Reisinger,
- Abstract要約: 本研究では,有限状態空間とコンパクトな行動空間を持つ平均場制御問題に対するモデル自由政策学習について検討する。
我々は,MFCのモデルフリーポリシー勾配アルゴリズムであるMF-REINFORCEを開発し,そのバイアスと平均二乗誤差に明確な定量的境界を確立する。
- 参考スコア(独自算出の注目度): 1.1470070927586018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study model-free policy learning for discrete-time mean-field control (MFC) problems with finite state space and compact action space. In contrast to the extensive literature on value-based methods for MFC, policy-based approaches remain largely unexplored due to the intrinsic dependence of transition kernels and rewards on the evolving population state distribution, which prevents the direct use of likelihood-ratio estimators of policy gradients from classical single-agent reinforcement learning. We introduce a novel perturbation scheme on the state-distribution flow and prove that the gradient of the resulting perturbed value function converges to the true policy gradient as the perturbation magnitude vanishes. This construction yields a fully model-free estimator based solely on simulated trajectories and an auxiliary estimate of the sensitivity of the state distribution. Building on this framework, we develop MF-REINFORCE, a model-free policy gradient algorithm for MFC, and establish explicit quantitative bounds on its bias and mean-squared error. Numerical experiments on representative mean-field control tasks demonstrate the effectiveness of the proposed approach.
- Abstract(参考訳): 有限状態空間とコンパクトなアクション空間を持つ離散時間平均場制御(MFC)問題に対するモデルフリーポリシー学習について検討する。
MFCの値に基づく手法に関する広範な文献とは対照的に、政策に基づくアプローチは、遷移カーネルの本質的な依存と、進化する人口状態分布への報酬により、古典的な単一エージェント強化学習からの政策勾配の確率比の直接的利用を妨げているため、ほとんど解明されていない。
本研究では, 状態分布流に対する新しい摂動スキームを導入し, 得られた摂動値関数の勾配が摂動の大きさがなくなるにつれて真の政策勾配に収束することを証明する。
この構造は、シミュレーションされた軌道のみに基づく完全なモデルのない推定器と、状態分布の感度の予備的な推定を行う。
この枠組みに基づいて,MFCのモデルフリーポリシー勾配アルゴリズムであるMF-REINFORCEを開発し,そのバイアスと平均二乗誤差に明確な定量的境界を確立する。
代表的な平均場制御タスクに関する数値実験により,提案手法の有効性が示された。
関連論文リスト
- Model-Based Reinforcement Learning Under Confounding [3.5690236380446163]
文脈的マルコフ決定過程 (C-MDP) におけるモデルに基づく強化学習について検討し, 文脈が観測されず, オフラインデータセットのコンバウンディングを誘導する。
本研究では,代用変数の軽度可逆条件下での観測可能な状態-反応-逆軌道のみを用いて,共起型報酬期待を識別する近位オフポリシー評価手法を適用した。
提案した定式化により,コンテキスト情報が観測できない,利用できない,収集が不可能な,統合された環境下でのモデル学習と計画が可能である。
論文 参考訳(メタデータ) (2025-12-08T13:02:00Z) - One-Step Flow Policy Mirror Descent [52.31612487608593]
Flow Policy Mirror Descent (FPMD)は、フローポリシー推論中の1ステップのサンプリングを可能にするオンラインRLアルゴリズムである。
本手法は, 直流整合モデルにおける単段サンプリングの分散分散と離散化誤差の理論的関係を利用する。
論文 参考訳(メタデータ) (2025-07-31T15:51:10Z) - Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [69.1820058966619]
平均逆無限水平POMDPを未知の遷移モデルで扱う。
この障壁を克服する斬新でシンプルな推定器を提示する。
論文 参考訳(メタデータ) (2025-01-30T22:29:41Z) - Data Assimilation in Chaotic Systems Using Deep Reinforcement Learning [0.5999777817331317]
データ同化は、気候予報や天気予報から自動運転車の軌道計画まで、様々な応用において重要な役割を果たしている。
近年の進歩は、主に教師付き学習フレームワーク内で、この領域でディープラーニングアプローチが出現している。
本研究では、強化学習(RL)を用いて状態変数の完全あるいは部分的観測を用いて状態修正を行う新しいDA戦略を提案する。
論文 参考訳(メタデータ) (2024-01-01T06:53:36Z) - Score-Aware Policy-Gradient and Performance Guarantees using Local Lyapunov Stability [2.180257135067774]
モデルベース強化学習(RL)のための政策段階的手法を提案する。
ネットワークにおけるマルコフ決定過程(MDP)から得られる定常分布のタイプを利用する。
我々は,SAGEに基づく政策段階が局所的に収束していることを示し,その後悔を得る。
論文 参考訳(メタデータ) (2023-12-05T14:44:58Z) - DROMO: Distributionally Robust Offline Model-based Policy Optimization [0.0]
モデルベース制御によるオフライン強化学習の問題点を考察する。
分散ロバストなオフラインモデルベースポリシー最適化(DROMO)を提案する。
論文 参考訳(メタデータ) (2021-09-15T13:25:14Z) - Near Optimality of Finite Memory Feedback Policies in Partially Observed
Markov Decision Processes [0.0]
システム力学と測定チャネルモデルが知られていると仮定したPOMDPの計画問題について検討する。
軽度非線形フィルタ安定性条件下で近似的信念モデルに対する最適ポリシーを求める。
また、有限ウィンドウメモリサイズと近似誤差境界を関連づけた収束結果のレートを確立する。
論文 参考訳(メタデータ) (2020-10-15T00:37:51Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。