論文の概要: Bridging Discrete and Continuous RL: Stable Deterministic Policy Gradient with Martingale Characterization
- arxiv url: http://arxiv.org/abs/2509.23711v1
- Date: Sun, 28 Sep 2025 07:53:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.390794
- Title: Bridging Discrete and Continuous RL: Stable Deterministic Policy Gradient with Martingale Characterization
- Title(参考訳): ブリジング離散と連続RL:Martingaleによる安定決定論的政策のグラディエント
- Authors: Ziheng Cheng, Xin Guo, Yufei Zhang,
- Abstract要約: 離散時間アルゴリズムを連続時間設定に拡張する際の大きな課題は、時間離散化に対する感度である。
連続時間強化学習のための決定論的政策勾配法を提案する。
提案アルゴリズムは,従来の離散時間法や連続時間法と比較して,安定性と収束性を向上する。
- 参考スコア(独自算出の注目度): 12.269012358096667
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The theory of discrete-time reinforcement learning (RL) has advanced rapidly over the past decades. Although primarily designed for discrete environments, many real-world RL applications are inherently continuous and complex. A major challenge in extending discrete-time algorithms to continuous-time settings is their sensitivity to time discretization, often leading to poor stability and slow convergence. In this paper, we investigate deterministic policy gradient methods for continuous-time RL. We derive a continuous-time policy gradient formula based on an analogue of the advantage function and establish its martingale characterization. This theoretical foundation leads to our proposed algorithm, CT-DDPG, which enables stable learning with deterministic policies in continuous-time environments. Numerical experiments show that the proposed CT-DDPG algorithm offers improved stability and faster convergence compared to existing discrete-time and continuous-time methods, across a wide range of control tasks with varying time discretizations and noise levels.
- Abstract(参考訳): 離散時間強化学習(RL)の理論は、過去数十年間で急速に進歩してきた。
主に離散環境向けに設計されたが、多くの実世界のRLアプリケーションは本質的に連続的で複雑である。
離散時間アルゴリズムを連続時間設定に拡張する際の大きな課題は、時間離散化に対する感度であり、しばしば安定性が低下し、収束が遅くなることである。
本稿では,連続時間RLにおける決定論的政策勾配法について検討する。
我々は、有利関数の類似に基づいて、連続時間ポリシー勾配式を導出し、そのマーチンゲール特性を確立する。
この理論的基礎は,提案アルゴリズムであるCT-DDPG(CT-DDPG)に導かれる。
数値実験により,従来の離散時間法や連続時間法と比較して安定性が向上し,収束性が向上した。
関連論文リスト
- Learning Deterministic Policies with Policy Gradients in Constrained Markov Decision Processes [59.27926064817273]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し,支配的仮定の下でのグローバルな最終点収束保証を享受する。
制約制御タスクにおいて,アクションベース(C-PGAE)とパラメータベース(C-PGPE)の両方を実証的に検証する。
論文 参考訳(メタデータ) (2025-06-06T10:29:05Z) - Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。
D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。
これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究である。
論文 参考訳(メタデータ) (2024-08-19T14:11:04Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - High Rank Path Development: an approach of learning the filtration of stochastic processes [6.245824251614165]
そこで我々は,HRPCFD(High Rank PCF Distance)と呼ばれる新しい尺度を導入する。
そして、そのようなHRPCFDは、データからHRPCFDを訓練し、HRPCF-GANを構築するための効率的なアルゴリズムを設計できるように、多くの好意的な解析特性を許容していることを示す。
仮説テストと生成モデルの両方に関する数値実験は、いくつかの最先端手法と比較して、我々のアプローチのアウトパフォーマンスを検証している。
論文 参考訳(メタデータ) (2024-05-23T13:20:47Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Optimal scheduling of entropy regulariser for continuous-time
linear-quadratic reinforcement learning [9.779769486156631]
ここで、エージェントは最適な緩和ポリシーに従って分散されたノイズ制御を生成することで環境と相互作用する。
この探索-探索トレードオフはエントロピー正則化の強さによって決定される。
どちらの学習アルゴリズムも、$mathcalO(sqrtN)$(対数係数まで)を$N$のエピソードよりも高く、文献から最もよく知られた結果と一致することを証明している。
論文 参考訳(メタデータ) (2022-08-08T23:36:40Z) - Learning from time-dependent streaming data with online stochastic
algorithms [7.283533791778357]
本稿では,時間依存的,偏りのある推定値を用いたストリーミング環境での最適化について述べる。
グラディエントDescent(SGD)、ミニバッチSGD、時間変化のミニバッチSGD、およびPolyak-Ruppert平均値など、いくつかの一階法を解析する。
論文 参考訳(メタデータ) (2022-05-25T07:53:51Z) - Linear convergence of a policy gradient method for finite horizon
continuous time stochastic control problems [3.7971225066055765]
本稿では,一般連続時空制御問題に対する確率収束勾配法を提案する。
アルゴリズムは制御点に線形に収束し、ステップごとのポリシーに対して安定であることを示す。
論文 参考訳(メタデータ) (2022-03-22T14:17:53Z) - On the Sample Complexity and Metastability of Heavy-tailed Policy Search
in Continuous Control [47.71156648737803]
強化学習(Reinforcement learning)は、システムダイナミクスモデルなしで、時間をかけてインセンティブを順次明らかにする、インタラクティブな意思決定のためのフレームワークである。
定義された連鎖を特徴付け、テールインデックスのレヴィプロセスに関連するポリシーがより広いピークに収まることを識別する。
論文 参考訳(メタデータ) (2021-06-15T20:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。