論文の概要: Neural Policy Iteration for Stochastic Optimal Control: A Physics-Informed Approach
- arxiv url: http://arxiv.org/abs/2508.01718v1
- Date: Sun, 03 Aug 2025 11:02:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.029443
- Title: Neural Policy Iteration for Stochastic Optimal Control: A Physics-Informed Approach
- Title(参考訳): 確率的最適制御のためのニューラルポリシー反復:物理インフォームドアプローチ
- Authors: Yeongjong Kim, Yeoneung Kim, Minseok Kim, Namkyeong Cho,
- Abstract要約: 物理インフォームドニューラルネットワークポリシー反復フレームワーク(PINN-PI)を提案する。
各イテレーションにおいて、ニューラルネットワークは、固定ポリシーによって誘導される線形PDEの残余を最小限にして、値関数を近似するように訓練される。
提案手法は,最大10次元の勾配カートポール,振り子高次元線形二次規則(LQR)問題など,いくつかのベンチマーク問題に対する有効性を示す。
- 参考スコア(独自算出の注目度): 2.8988658640181826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a physics-informed neural network policy iteration (PINN-PI) framework for solving stochastic optimal control problems governed by second-order Hamilton--Jacobi--Bellman (HJB) equations. At each iteration, a neural network is trained to approximate the value function by minimizing the residual of a linear PDE induced by a fixed policy. This linear structure enables systematic $L^2$ error control at each policy evaluation step, and allows us to derive explicit Lipschitz-type bounds that quantify how value gradient errors propagate to the policy updates. This interpretability provides a theoretical basis for evaluating policy quality during training. Our method extends recent deterministic PINN-based approaches to stochastic settings, inheriting the global exponential convergence guarantees of classical policy iteration under mild conditions. We demonstrate the effectiveness of our method on several benchmark problems, including stochastic cartpole, pendulum problems and high-dimensional linear quadratic regulation (LQR) problems in up to 10D.
- Abstract(参考訳): 本稿では,2次ハミルトン-ヤコビ-ベルマン方程式(HJB)が支配する確率的最適制御問題を解くための物理インフォームドニューラルネットワークポリシー反復(PINN-PI)フレームワークを提案する。
各イテレーションにおいて、ニューラルネットワークは、固定ポリシーによって誘導される線形PDEの残余を最小限にして、値関数を近似するように訓練される。
この線形構造は、各政策評価ステップで系統的な$L^2$エラー制御を可能にし、政策更新にどのように値勾配誤差が伝播するかを定量化する明示的なリプシッツ型境界を導出することができる。
この解釈性は、訓練中の政策品質を評価する理論的基盤を提供する。
提案手法は,確率的設定に対する最近の決定論的PINNに基づくアプローチを拡張し,緩やかな条件下での古典的政策反復のグローバル指数収束保証を継承する。
提案手法は,最大10次元での確率的カルポール,振り子問題,高次元線形二次規則(LQR)問題など,いくつかのベンチマーク問題に対する有効性を示す。
関連論文リスト
- Solving nonconvex Hamilton--Jacobi--Isaacs equations with PINN-based policy iteration [1.3654846342364308]
本稿では,従来の動的プログラミングとニューラルネットワーク(PINN)を組み合わせて,非加入者ハミルトン・ヤコビ・イザック方程式を解くフレームワークを提案する。
この結果から,PINNを政策ポリシーに統合することは,高次元非加入者HJI方程式の解法として,実用的で理論的に確立された手法であることが示唆された。
論文 参考訳(メタデータ) (2025-07-21T10:06:53Z) - Convergence and Sample Complexity of First-Order Methods for Agnostic Reinforcement Learning [66.4260157478436]
政策学習における強化学習について検討する。
目的は、特定の種類の利害関係において最高の政策と競争力のある政策を見つけることである。
論文 参考訳(メタデータ) (2025-07-06T14:40:05Z) - Quantile-Optimal Policy Learning under Unmeasured Confounding [55.72891849926314]
ここでは,報酬分布が (0, 1) で最大$alpha$-quantileを持つポリシーを見つけることを目標とする量子最適政策学習について検討する。
このような問題は、(i)報酬分布の関数としての量子目標の非線形性、(ii)未観測の共起問題、(iii)オフラインデータセットのカバー不足という3つの大きな課題に悩まされている。
論文 参考訳(メタデータ) (2025-06-08T13:37:38Z) - Multilinear Tensor Low-Rank Approximation for Policy-Gradient Methods in Reinforcement Learning [27.868175900131313]
強化学習 (Reinforcement Learning, RL) は、与えられた(時間変化のある)状態を取るための行動を推定することを目的としている。
本稿では,RLポリシーのパラメータを効率的に推定するために,複数線形写像を仮定する。
我々はPARAFAC分解を利用してテンソル低ランクポリシーを設計する。
論文 参考訳(メタデータ) (2025-01-08T23:22:08Z) - High-probability sample complexities for policy evaluation with linear function approximation [88.87036653258977]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。
高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文 参考訳(メタデータ) (2023-05-30T12:58:39Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Learning Stochastic Parametric Differentiable Predictive Control
Policies [2.042924346801313]
本稿では、ニューラルネットワークポリシーの教師なし学習のための、パラメトリック微分可能予測制御(SP-DPC)と呼ばれるスケーラブルな代替手法を提案する。
SP-DPCはパラメトリック制約最適制御問題に対する決定論的近似として定式化される。
閉ループ制約と確率満足度に関するSP-DPC法を用いて学習したポリシーに関する理論的確率的保証を提供する。
論文 参考訳(メタデータ) (2022-03-02T22:46:32Z) - Distributional Offline Continuous-Time Reinforcement Learning with
Neural Physics-Informed PDEs (SciPhy RL for DOCTR-L) [0.0]
本稿では,分散オフライン連続時間強化学習(DOCTR-L)を高次元最適制御のためのポリシーで扱う。
ソフトHJB方程式のデータ駆動解は、SciML(Scientific Machine Learning)の分野で開発されたニューラルPDEと物理情報ニューラルネットワークの手法を用いている
Deep DOCTR-Lと呼ばれるアルゴリズムは、オフラインの高次元データを教師あり学習に還元することで、一つのステップで最適なポリシーに変換する。
論文 参考訳(メタデータ) (2021-04-02T13:22:14Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。