論文の概要: Data-driven initialization of deep learning solvers for
Hamilton-Jacobi-Bellman PDEs
- arxiv url: http://arxiv.org/abs/2207.09299v1
- Date: Tue, 19 Jul 2022 14:34:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 14:19:00.470179
- Title: Data-driven initialization of deep learning solvers for
Hamilton-Jacobi-Bellman PDEs
- Title(参考訳): ハミルトン・ヤコビ・ベルマンpdesのための深層学習ソルバのデータ駆動初期化
- Authors: Anastasia Borovykh, Dante Kalise, Alexis Laignelet, Panos Parpas
- Abstract要約: 状態依存型 Riccati 方程式制御法は、まず、教師付き学習のための勾配拡張合成データセットを生成するために用いられる。
得られたモデルは、HJB PDEの残量に基づく損失関数の最小化のためのウォームスタートとなる。
- 参考スコア(独自算出の注目度): 3.249853429482705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A deep learning approach for the approximation of the Hamilton-Jacobi-Bellman
partial differential equation (HJB PDE) associated to the Nonlinear Quadratic
Regulator (NLQR) problem. A state-dependent Riccati equation control law is
first used to generate a gradient-augmented synthetic dataset for supervised
learning. The resulting model becomes a warm start for the minimization of a
loss function based on the residual of the HJB PDE. The combination of
supervised learning and residual minimization avoids spurious solutions and
mitigate the data inefficiency of a supervised learning-only approach.
Numerical tests validate the different advantages of the proposed methodology.
- Abstract(参考訳): 非線形二次レギュレータ(NLQR)問題に関連するハミルトン・ヤコビ・ベルマン偏微分方程式(HJB PDE)の近似に対するディープラーニングアプローチ
状態依存リッカティ方程式制御法則は、教師付き学習のための勾配型合成データセットを生成するために最初に用いられる。
得られたモデルは、HJB PDEの残量に基づく損失関数の最小化のためのウォームスタートとなる。
教師付き学習と残留最小化の組み合わせは、素早い解決策を避け、教師付き学習のみのアプローチのデータ非効率を緩和する。
数値試験は提案手法の異なる利点を検証する。
関連論文リスト
- Total Uncertainty Quantification in Inverse PDE Solutions Obtained with Reduced-Order Deep Learning Surrogate Models [50.90868087591973]
機械学習サロゲートモデルを用いて得られた逆PDE解の総不確かさを近似したベイズ近似法を提案する。
非線型拡散方程式に対する反復的アンサンブルスムーズおよび深層アンサンブル法との比較により,提案手法を検証した。
論文 参考訳(メタデータ) (2024-08-20T19:06:02Z) - Active Learning for Neural PDE Solvers [18.665448858377694]
Active Learningは、モデルをより小さなトレーニングセットで同じ精度でサロゲートするのに役立ちます。
モジュール型かつアクティブな学習ベンチマークであるAL4PDEを紹介する。
ALは,ランダムサンプリングと比較して平均誤差を最大71%削減することを示した。
論文 参考訳(メタデータ) (2024-08-02T18:48:58Z) - Leveraging viscous Hamilton-Jacobi PDEs for uncertainty quantification in scientific machine learning [1.8175282137722093]
科学機械学習(SciML)における不確実性(UQ)は、SciMLの強力な予測力と、学習したモデルの信頼性を定量化する方法を組み合わせる。
我々は、SciMLと粘性ハミルトン-ヤコビ偏微分方程式(HJ PDE)で生じるいくつかのベイズ推論問題の間の新しい理論的関係を確立することにより、UQ問題に対する新しい解釈を提供する。
我々はモデル予測を継続的に更新する際の計算上の利点を提供する新しいRacatiベースの方法論を開発した。
論文 参考訳(メタデータ) (2024-04-12T20:54:01Z) - Leveraging Hamilton-Jacobi PDEs with time-dependent Hamiltonians for continual scientific machine learning [1.8175282137722093]
科学機械学習(SciML)における2つの大きな課題に対処する。
我々は、SciMLから生じる最適化問題と一般化ホップ公式との新たな理論的関係を確立する。
既存のHJ PDEソルバと最適制御アルゴリズムを再利用して、新しい効率的なトレーニングアプローチを設計することができる。
論文 参考訳(メタデータ) (2023-11-13T22:55:56Z) - An Optimization-based Deep Equilibrium Model for Hyperspectral Image
Deconvolution with Convergence Guarantees [71.57324258813675]
本稿では,ハイパースペクトル画像のデコンボリューション問題に対処する新しい手法を提案する。
新しい最適化問題を定式化し、学習可能な正規化器をニューラルネットワークの形で活用する。
導出した反復解法は、Deep Equilibriumフレームワーク内の不動点計算問題として表現される。
論文 参考訳(メタデータ) (2023-06-10T08:25:16Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - Learning via nonlinear conjugate gradients and depth-varying neural ODEs [5.565364597145568]
ニューラル常微分方程式(NODE)における深度可変パラメータの教師付き再構成の逆問題について考察する。
提案したパラメータ再構成は,コスト関数の最小化による一般一階微分方程式に対して行われる。
感度問題は、トレーニングされたパラメータの摂動下でのネットワーク出力の変化を推定することができる。
論文 参考訳(メタデータ) (2022-02-11T17:00:48Z) - Parsimony-Enhanced Sparse Bayesian Learning for Robust Discovery of
Partial Differential Equations [5.584060970507507]
Parsimony Enhanced Sparse Bayesian Learning (PeSBL) 法は非線形力学系の部分微分方程式 (PDE) を解析するために開発された。
数値ケーススタディの結果,多くの標準力学系のPDEをPeSBL法を用いて正確に同定できることが示唆された。
論文 参考訳(メタデータ) (2021-07-08T00:56:11Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。