論文の概要: Accuracy of Discretely Sampled Stochastic Policies in Continuous-time Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2503.09981v1
- Date: Thu, 13 Mar 2025 02:35:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:50:43.905694
- Title: Accuracy of Discretely Sampled Stochastic Policies in Continuous-time Reinforcement Learning
- Title(参考訳): 継続的強化学習における離散サンプリング確率ポリシーの精度
- Authors: Yanwei Jia, Du Ouyang, Yufei Zhang,
- Abstract要約: 我々は、個別の時点におけるポリシーからアクションをサンプリングするポリシー実行フレームワークを厳格に分析し、それらを断片的に一定の制御として実装する。
サンプリングメッシュのサイズがゼロになる傾向にあるため、制御状態プロセスはポリシーに従って集約された係数で動的に弱収束する。
これらの結果に基づいて、離散時間観測に基づいて、様々な政策評価と政策勾配推定器のバイアスとばらつきを分析した。
- 参考スコア(独自算出の注目度): 7.126779417918601
- License:
- Abstract: Stochastic policies are widely used in continuous-time reinforcement learning algorithms. However, executing a stochastic policy and evaluating its performance in a continuous-time environment remain open challenges. This work introduces and rigorously analyzes a policy execution framework that samples actions from a stochastic policy at discrete time points and implements them as piecewise constant controls. We prove that as the sampling mesh size tends to zero, the controlled state process converges weakly to the dynamics with coefficients aggregated according to the stochastic policy. We explicitly quantify the convergence rate based on the regularity of the coefficients and establish an optimal first-order convergence rate for sufficiently regular coefficients. Additionally, we show that the same convergence rates hold with high probability concerning the sampling noise, and further establish a $1/2$-order almost sure convergence when the volatility is not controlled. Building on these results, we analyze the bias and variance of various policy evaluation and policy gradient estimators based on discrete-time observations. Our results provide theoretical justification for the exploratory stochastic control framework in [H. Wang, T. Zariphopoulou, and X.Y. Zhou, J. Mach. Learn. Res., 21 (2020), pp. 1-34].
- Abstract(参考訳): 確率ポリシーは、連続時間強化学習アルゴリズムで広く使われている。
しかし、確率的なポリシーを実行し、そのパフォーマンスを継続的に評価することは、依然としてオープンな課題である。
この研究は、個別の時点における確率的ポリシーからアクションをサンプリングし、それらを断片的に一定の制御として実装するポリシー実行フレームワークを導入し、厳密に分析する。
サンプリングメッシュのサイズがゼロになる傾向にあるので、制御状態過程は確率的ポリシーに従って集約された係数を持つ力学に弱収束する。
我々は、係数の正則性に基づいて収束率を明示的に定量化し、十分な正則係数に対して最適な1次収束率を確立する。
さらに,同じ収束速度がサンプリングノイズに関する高い確率で保たれることを示し,ボラティリティが制御されない場合,さらに1/2$-orderのほぼ確実に収束することを示す。
これらの結果に基づいて、離散時間観測に基づいて、様々な政策評価と政策勾配推定器のバイアスとばらつきを分析した。
この結果は,[H. Wang, T. Zariphopoulou, and X.Y. Zhou, J. Mach. Learn. Res., 21 (2020), pp. 1-34]における探索確率制御の理論的正当性を提供する。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - $K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic
Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。
私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。
他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文 参考訳(メタデータ) (2023-06-07T23:55:12Z) - Actor-Critic learning for mean-field control in continuous time [0.0]
強化学習環境における平均場制御のための政策勾配を連続的に検討する。
エントロピー正規化を伴うランダム化ポリシーを考えることにより、値関数の勾配期待表現を導出する。
線形四進平均場フレームワークでは、ワッサーシュタイン空間上で定義されたアクターと批評家関数の正確なパラメトリションを得る。
論文 参考訳(メタデータ) (2023-03-13T10:49:25Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - Optimal scheduling of entropy regulariser for continuous-time
linear-quadratic reinforcement learning [9.779769486156631]
ここで、エージェントは最適な緩和ポリシーに従って分散されたノイズ制御を生成することで環境と相互作用する。
この探索-探索トレードオフはエントロピー正則化の強さによって決定される。
どちらの学習アルゴリズムも、$mathcalO(sqrtN)$(対数係数まで)を$N$のエピソードよりも高く、文献から最もよく知られた結果と一致することを証明している。
論文 参考訳(メタデータ) (2022-08-08T23:36:40Z) - On the Hidden Biases of Policy Mirror Ascent in Continuous Action Spaces [23.186300629667134]
重み付きパラメータ化の下でのポリシー勾配アルゴリズムの収束性について検討する。
我々の主要な理論的貢献は、このスキームが一定のステップとバッチサイズに収束することである。
論文 参考訳(メタデータ) (2022-01-28T18:54:30Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。