論文の概要: Continuous-time q-learning for mean-field control with common noise, part-I: Theoretical foundations
- arxiv url: http://arxiv.org/abs/2604.27372v1
- Date: Thu, 30 Apr 2026 03:37:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.906581
- Title: Continuous-time q-learning for mean-field control with common noise, part-I: Theoretical foundations
- Title(参考訳): 共通雑音を考慮した平均場制御のための連続時間q-ラーニング(第1報):理論的基礎
- Authors: Zhenjie Ren, Xiaoli Wei, Xiang Yu, Xun Yu Zhou,
- Abstract要約: 共振器を制御したエントロピー規則化平均場制御(MFC)におけるQ関数の連続時間対応について検討した。
我々は、ハミルトン・ヤコビ・ベルマン方程式(HJB)を導出し、制御された共有雑音がポリシーのさらなる非線形機能をもたらす。
平均場設定では、状態分布とポリシに定義された統合q関数(Iq関数)を導入し、最適方針をIq関数のargmax演算子に対する2層固定点として同定することを示した。
- 参考スコア(独自算出の注目度): 7.003100820506273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the continuous-time counterpart of the Q-function for entropy-regularized mean-field control (MFC) with controlled common noise, coined as q-function by Jia and Zhou (2023) in the single agent's model. We first show that, under discretely sampled actions, the value function in the exploratory formulation converges to the one in the relaxed control formulation as the time grid refines. Leveraging the relaxed control formulation, we derive the exploratory Hamilton-Jacobi-Bellman (HJB) equation, in which the controlled common noise gives rise to an additional nonlinear functional of policy, rendering the policy iteration intricate. Under certain concavity condition, we establish the existence and uniqueness of the optimal one-step policy iteration via a first-order condition using the partial linear functional derivative with respect to policy. The policy improvement at each iteration is verified by relating to an entropy-regularized optimization problem over the space of policies. In the mean-field setting, we introduce the integrated q-function (Iq-function) defined on the state distribution and the policy, and it is shown that an optimal policy is identified as a two-layer fixed point to the argmax operator of the Iq-function. Finally, we provide the explicit characterization of an optimal policy as a Gaussian distribution in the general linear-quadratic (LQ) setting.
- Abstract(参考訳): 本稿では, 共振器モデルにおいて, 共振器を制御した共振器型平均場制御(MFC)におけるQ-関数の連続的対応について検討する。
まず、離散的なサンプル化動作の下では、探索的定式化の値関数が時間格子の洗練に伴って緩和された制御定式化の値関数に収束することを示す。
緩和制御の定式化を利用すると、ハミルトン・ヤコビ・ベルマン(英語版)(HJB)方程式が導かれる。
ある凹凸条件の下では、ポリシーに関する偏線型汎関数微分を用いた一階条件により、最適一段ポリシー反復の存在と一意性を確立する。
各イテレーションにおけるポリシー改善は、ポリシー空間上のエントロピー規則化された最適化問題に関連して検証される。
平均場設定では、状態分布とポリシに定義された統合q関数(Iq関数)を導入し、最適方針をIq関数のargmax演算子に対する2層固定点として同定する。
最後に、一般線形四元数 (LQ) 設定におけるガウス分布として最適ポリシーを明示的に特徴づける。
関連論文リスト
- Achieve Performatively Optimal Policy for Performative Reinforcement Learning [55.983627302691424]
本研究は,0階次FrankWolfe- (0FW) アルゴリズムを提案する。
実験結果から, 所望のPOポリシを求める場合, 既存の近似よりも0FWの方が有効であることが示唆された。
論文 参考訳(メタデータ) (2025-10-06T01:56:31Z) - Continuous Policy and Value Iteration for Stochastic Control Problems and Its Convergence [8.65436459753278]
本稿では,制御問題の値関数と最適制御の近似をLangevin型力学を用いて同時に更新する連続ポリシー反復アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-09T18:20:21Z) - Learning Deterministic Policies with Policy Gradients in Constrained Markov Decision Processes [59.27926064817273]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し,支配的仮定の下でのグローバルな最終点収束保証を享受する。
制約制御タスクにおいて,アクションベース(C-PGAE)とパラメータベース(C-PGPE)の両方を実証的に検証する。
論文 参考訳(メタデータ) (2025-06-06T10:29:05Z) - Continuous-time q-Learning for Jump-Diffusion Models under Tsallis Entropy [8.924830900790713]
本稿では,Tsallisエントロピー正規化の下で,Q-ラーニング(Q-ラーニングの連続的対応)を特徴とするジャンプ拡散モデルの連続時間強化学習について検討する。
ダークプールにおける最適液化問題と非LQ制御問題という2つの数値例について検討する。
論文 参考訳(メタデータ) (2024-07-04T12:26:31Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Optimal scheduling of entropy regulariser for continuous-time
linear-quadratic reinforcement learning [9.779769486156631]
ここで、エージェントは最適な緩和ポリシーに従って分散されたノイズ制御を生成することで環境と相互作用する。
この探索-探索トレードオフはエントロピー正則化の強さによって決定される。
どちらの学習アルゴリズムも、$mathcalO(sqrtN)$(対数係数まで)を$N$のエピソードよりも高く、文献から最もよく知られた結果と一致することを証明している。
論文 参考訳(メタデータ) (2022-08-08T23:36:40Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。