論文の概要: Hamilton-Jacobi Based Policy-Iteration via Deep Operator Learning
- arxiv url: http://arxiv.org/abs/2406.10920v1
- Date: Sun, 16 Jun 2024 12:53:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 20:02:29.320923
- Title: Hamilton-Jacobi Based Policy-Iteration via Deep Operator Learning
- Title(参考訳): ハミルトン・ヤコビを基盤としたDeep Operator Learningによるポリシ・イテレーション
- Authors: Jae Yong Lee, Yeoneung Kim,
- Abstract要約: 我々は、DeepONetと最近開発されたポリシースキームを組み込んで、最適制御問題を数値的に解く。
ニューラルネットワークをトレーニングすると、最適制御問題とHJB方程式の解を素早く推測できる。
- 参考スコア(独自算出の注目度): 9.950128864603599
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The framework of deep operator network (DeepONet) has been widely exploited thanks to its capability of solving high dimensional partial differential equations. In this paper, we incorporate DeepONet with a recently developed policy iteration scheme to numerically solve optimal control problems and the corresponding Hamilton--Jacobi--Bellman (HJB) equations. A notable feature of our approach is that once the neural network is trained, the solution to the optimal control problem and HJB equations with different terminal functions can be inferred quickly thanks to the unique feature of operator learning. Furthermore, a quantitative analysis of the accuracy of the algorithm is carried out via comparison principles of viscosity solutions. The effectiveness of the method is verified with various examples, including 10-dimensional linear quadratic regulator problems (LQRs).
- Abstract(参考訳): ディープ作用素ネットワーク(DeepONet)のフレームワークは、高次元偏微分方程式を解く能力によって広く利用されている。
本稿では、DeepONetを最近開発されたポリシー反復方式に組み込んで、最適制御問題と対応するハミルトン-ヤコビ-ベルマン方程式を数値的に解く。
ニューラルネットワークが学習されると、演算子学習のユニークな特徴により、最適制御問題と異なる終端関数を持つHJB方程式の解がすばやく推論できる。
さらに, 粘性解の比較原理を用いて, アルゴリズムの精度を定量的に解析する。
この手法の有効性は,10次元線形二次規制問題 (LQR) など,様々な例で検証されている。
関連論文リスト
- Neural optimal controller for stochastic systems via pathwise HJB
operator [2.8928489670253277]
本研究の目的は,物理インフォームドラーニングと動的プログラミングに基づく高次元制御問題に対するディープラーニングに基づくアルゴリズムの開発である。
我々はHJB方程式に付随するパスワイズ演算子を導入し、物理インフォームドラーニングの問題を定義する。
最適制御が明示的な表現を持つか否かに応じて,物理インフォームド学習問題の解法として2つの数値解法を提案する。
論文 参考訳(メタデータ) (2024-02-23T20:19:06Z) - Neural Time-Reversed Generalized Riccati Equation [60.92253836775246]
ハミルトン方程式は、コストテートとして知られる補助変数を通して最適性の解釈を提供する。
本稿では,前向きに作業することを目的とした,新しいニューラルベースによる最適制御手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T19:29:37Z) - Operator Learning Enhanced Physics-informed Neural Networks for Solving
Partial Differential Equations Characterized by Sharp Solutions [10.999971808508437]
そこで我々は,OL-PINN(Operator Learning Enhanced Physics-informed Neural Networks)と呼ばれる新しいフレームワークを提案する。
提案手法は, 強い一般化能力を実現するために, 少数の残差点しか必要としない。
精度を大幅に向上すると同時に、堅牢なトレーニングプロセスも保証する。
論文 参考訳(メタデータ) (2023-10-30T14:47:55Z) - Optimizing Solution-Samplers for Combinatorial Problems: The Landscape
of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。
我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。
本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-10-08T23:39:38Z) - On Robust Numerical Solver for ODE via Self-Attention Mechanism [82.95493796476767]
我々は,内在性雑音障害を緩和し,AIによって強化された数値解法を,データサイズを小さくする訓練について検討する。
まず,教師付き学習における雑音を制御するための自己認識機構の能力を解析し,さらに微分方程式の数値解に付加的な自己認識機構を導入し,簡便かつ有効な数値解法であるAttrを提案する。
論文 参考訳(メタデータ) (2023-02-05T01:39:21Z) - Deep Graphic FBSDEs for Opinion Dynamics Stochastic Control [27.38625075499457]
本稿では,動的・コスト関数における平均場項結合を用いた意見力学の最適制御問題の解法として,スケーラブルなディープラーニング手法を提案する。
提案したフレームワークは,超大規模問題に対する将来の応用の可能性を開く。
論文 参考訳(メタデータ) (2022-04-05T22:07:32Z) - Deep Learning Approximation of Diffeomorphisms via Linear-Control
Systems [91.3755431537592]
我々は、制御に線形に依存する$dot x = sum_i=1lF_i(x)u_i$という形の制御系を考える。
対応するフローを用いて、コンパクトな点のアンサンブル上の微分同相写像の作用を近似する。
論文 参考訳(メタデータ) (2021-10-24T08:57:46Z) - Deep neural network approximation for high-dimensional parabolic
Hamilton-Jacobi-Bellman equations [5.863264019032882]
特定のマルコフ過程の最適制御の文脈で生じるHJB方程式に対して、解は次元の呪いを起こさずに深いニューラルネットワークによって近似できることが示されている。
論文 参考訳(メタデータ) (2021-03-09T22:34:13Z) - Hamilton-Jacobi Deep Q-Learning for Deterministic Continuous-Time
Systems with Lipschitz Continuous Controls [2.922007656878633]
リプシッツ連続制御を用いた連続時間決定論的最適制御問題に対するQ-learningアルゴリズムを提案する。
HJB方程式の新たな半離散バージョンが提案され、離散時間で収集されたデータを用いて、システムの力学を離散化したり近似したりすることなく、Q-ラーニングアルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-10-27T06:11:04Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。