論文の概要: Continuous Policy and Value Iteration for Stochastic Control Problems and Its Convergence
- arxiv url: http://arxiv.org/abs/2506.08121v1
- Date: Mon, 09 Jun 2025 18:20:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:40.364331
- Title: Continuous Policy and Value Iteration for Stochastic Control Problems and Its Convergence
- Title(参考訳): 確率制御問題に対する継続的政策と価値反復とその収束性
- Authors: Qi Feng, Gu Wang,
- Abstract要約: 本稿では,制御問題の値関数と最適制御の近似をLangevin型力学を用いて同時に更新する連続ポリシー反復アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 8.65436459753278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a continuous policy-value iteration algorithm where the approximations of the value function of a stochastic control problem and the optimal control are simultaneously updated through Langevin-type dynamics. This framework applies to both the entropy-regularized relaxed control problems and the classical control problems, with infinite horizon. We establish policy improvement and demonstrate convergence to the optimal control under the monotonicity condition of the Hamiltonian. By utilizing Langevin-type stochastic differential equations for continuous updates along the policy iteration direction, our approach enables the use of distribution sampling and non-convex learning techniques in machine learning to optimize the value function and identify the optimal control simultaneously.
- Abstract(参考訳): 本稿では,確率的制御問題の値関数の近似と最適制御をLangevin型力学を用いて同時に更新する連続ポリシー値反復アルゴリズムを提案する。
この枠組みは、エントロピー規則化された緩和された制御問題と古典的な制御問題の両方に無限の地平線で適用される。
我々は政策改善を確立し、ハミルトニアンの単調条件の下で最適制御への収束を示す。
ランゲヴィン型確率微分方程式をポリシー反復方向に沿って連続的な更新に利用することにより,機械学習における分布サンプリングと非凸学習技術を用いて,値関数の最適化と最適制御の同時同定が可能となる。
関連論文リスト
- Primal-Dual Contextual Bayesian Optimization for Control System Online
Optimization with Time-Average Constraints [21.38692458445459]
本稿では,制約付き閉ループ制御システムのオンライン性能最適化問題について検討する。
動的最適解に対する線形累積後悔を克服する主元-双対文脈ベイズ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-12T18:37:52Z) - A Policy Gradient Framework for Stochastic Optimal Control Problems with Global Convergence Guarantee [17.813898660635783]
最適制御問題に対するポリシー勾配法を連続的に検討する。
勾配流のグローバル収束を証明し、一定の正則性仮定の下で収束率を確立する。
論文 参考訳(メタデータ) (2023-02-11T23:30:50Z) - Introduction to Online Control [34.77535508151501]
オンラインの非確率制御では、コスト関数と仮定された力学モデルからの摂動の両方が敵によって選択される。
目標は、ベンチマーククラスの政策から見て、最高の政策に対して低い後悔を得ることだ。
論文 参考訳(メタデータ) (2022-11-17T16:12:45Z) - Linear convergence of a policy gradient method for finite horizon
continuous time stochastic control problems [3.7971225066055765]
本稿では,一般連続時空制御問題に対する確率収束勾配法を提案する。
アルゴリズムは制御点に線形に収束し、ステップごとのポリシーに対して安定であることを示す。
論文 参考訳(メタデータ) (2022-03-22T14:17:53Z) - Continuous-Time Fitted Value Iteration for Robust Policies [93.25997466553929]
ハミルトン・ヤコビ・ベルマン方程式の解法は、制御、ロボティクス、経済学を含む多くの領域において重要である。
連続適合値反復(cFVI)とロバスト適合値反復(rFVI)を提案する。
これらのアルゴリズムは、多くの連続制御問題の非線形制御-アフィンダイナミクスと分離可能な状態とアクション報酬を利用する。
論文 参考訳(メタデータ) (2021-10-05T11:33:37Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Policy Analysis using Synthetic Controls in Continuous-Time [101.35070661471124]
因果推論における手法開発において, 合成制御を用いた因果推定は最も成功した手法の1つである。
本稿では,制御された微分方程式の定式化を明示的に用い,潜在反事実経路をモデル化する連続時間代替法を提案する。
論文 参考訳(メタデータ) (2021-02-02T16:07:39Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。