論文の概要: Bridging Physics-Informed Neural Networks with Reinforcement Learning:
Hamilton-Jacobi-Bellman Proximal Policy Optimization (HJBPPO)
- arxiv url: http://arxiv.org/abs/2302.00237v1
- Date: Wed, 1 Feb 2023 04:33:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-02 13:35:35.723063
- Title: Bridging Physics-Informed Neural Networks with Reinforcement Learning:
Hamilton-Jacobi-Bellman Proximal Policy Optimization (HJBPPO)
- Title(参考訳): 強化学習を用いたブリッジング物理情報ニューラルネットワーク:ハミルトン・ヤコビ・ベルマン近似政策最適化(HJBPPO)
- Authors: Amartya Mukherjee and Jun Liu
- Abstract要約: ハミルトン・ヤコビ・ベルマン方程式(HJB)は、値関数の最適性を評価するために制御理論において用いられる。
我々の研究は,HJB方程式と連続状態における強化学習と行動空間を組み合わせることで,価値ネットワークのトレーニングを改善する。
The Proximal Policy Optimization (PPO)-Clipped algorithm is improved with this implementation as it using a value network to compute the objective function for its policy network。
- 参考スコア(独自算出の注目度): 5.137144629366217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces the Hamilton-Jacobi-Bellman Proximal Policy
Optimization (HJBPPO) algorithm into reinforcement learning. The
Hamilton-Jacobi-Bellman (HJB) equation is used in control theory to evaluate
the optimality of the value function. Our work combines the HJB equation with
reinforcement learning in continuous state and action spaces to improve the
training of the value network. We treat the value network as a Physics-Informed
Neural Network (PINN) to solve for the HJB equation by computing its
derivatives with respect to its inputs exactly. The Proximal Policy
Optimization (PPO)-Clipped algorithm is improvised with this implementation as
it uses a value network to compute the objective function for its policy
network. The HJBPPO algorithm shows an improved performance compared to PPO on
the MuJoCo environments.
- Abstract(参考訳): 本稿では,ハミルトン・ヤコビ・ベルマン近似政策最適化(HJBPPO)アルゴリズムを強化学習に適用する。
ハミルトン・ヤコビ・ベルマン方程式(HJB)は、値関数の最適性を評価するために制御理論において用いられる。
我々の研究は,HJB方程式と連続状態における強化学習と行動空間を組み合わせることで,価値ネットワークのトレーニングを改善する。
我々は,この値ネットワークを物理インフォームドニューラルネットワーク (PINN) として扱い,その入力を正確に計算することでHJB方程式を解く。
ppo(proximal policy optimization)-clippedアルゴリズムは、そのポリシーネットワークの目的関数を計算するためにバリューネットワークを使用するため、この実装で即興で実現されている。
HJBPPO アルゴリズムは MuJoCo 環境の PPO と比較して性能が向上した。
関連論文リスト
- Bayesian Optimization for Hyperparameters Tuning in Neural Networks [0.0]
ベイズ最適化 (Bayesian Optimization) は、連続的な入力と限られた評価予算を持つブラックボックス関数に適した微分自由大域最適化手法である。
本研究では,畳み込みニューラルネットワーク(CNN)の強化を目的としたニューラルネットワークのハイパーパラメータチューニングにおけるBOの適用について検討する。
実験結果から,BOは探索と利用のバランスを効果的に保ち,CNNアーキテクチャの最適設定に向けて急速に収束することが明らかとなった。
このアプローチは、ニューラルネットワークチューニングの自動化におけるBOの可能性を強調し、機械学習パイプラインの精度と計算効率の改善に寄与する。
論文 参考訳(メタデータ) (2024-10-29T09:23:24Z) - Hamilton-Jacobi Based Policy-Iteration via Deep Operator Learning [9.950128864603599]
我々は、DeepONetと最近開発されたポリシースキームを組み込んで、最適制御問題を数値的に解く。
ニューラルネットワークをトレーニングすると、最適制御問題とHJB方程式の解を素早く推測できる。
論文 参考訳(メタデータ) (2024-06-16T12:53:17Z) - Linear Function Approximation as a Computationally Efficient Method to Solve Classical Reinforcement Learning Challenges [0.0]
本稿では,Natural Policy Gradient法によるアクター更新を用いたNatural Actor Criticアルゴリズムの実装について述べる。
我々は,我々のアルゴリズムが複雑なニューラルネットワークアーキテクチャよりもはるかに高速に学習し,同等あるいはそれ以上の結果が得られることを観察する。
論文 参考訳(メタデータ) (2024-05-27T22:51:58Z) - Enriched Physics-informed Neural Networks for Dynamic
Poisson-Nernst-Planck Systems [0.8192907805418583]
本稿では、動的Poisson-Nernst-Planck(PNP)方程式を解くために、メッシュレス深層学習アルゴリズム、EPINN(enriched Physics-informed Neural Network)を提案する。
EPINNは、従来の物理インフォームドニューラルネットワークを基盤フレームワークとして、損失関数のバランスをとるために適応的な損失重みを追加する。
数値計算の結果, 結合された非線形系の解法において, 従来の数値法よりも適用性が高いことがわかった。
論文 参考訳(メタデータ) (2024-02-01T02:57:07Z) - Pointer Networks with Q-Learning for Combinatorial Optimization [55.2480439325792]
我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。
実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
論文 参考訳(メタデータ) (2023-11-05T12:03:58Z) - Actor-Critic Methods using Physics-Informed Neural Networks: Control of
a 1D PDE Model for Fluid-Cooled Battery Packs [5.137144629366217]
本稿では,冷却液を用いた電池パックの温度制御のためのアクタ・クリティカルなアルゴリズムを提案する。
実験の結果、HJB方程式を用いて価値ネットワークを更新し、PPOと同一のポリシーネットワークを更新するハイブリッド政治手法が、このPDEシステムの制御において最良の結果をもたらすことが示された。
論文 参考訳(メタデータ) (2023-05-18T13:21:38Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Neural Basis Functions for Accelerating Solutions to High Mach Euler
Equations [63.8376359764052]
ニューラルネットワークを用いた偏微分方程式(PDE)の解法を提案する。
ニューラルネットワークの集合を縮小順序 Proper Orthogonal Decomposition (POD) に回帰する。
これらのネットワークは、所定のPDEのパラメータを取り込み、PDEに還元順序近似を計算する分岐ネットワークと組み合わせて使用される。
論文 参考訳(メタデータ) (2022-08-02T18:27:13Z) - ES-Based Jacobian Enables Faster Bilevel Optimization [53.675623215542515]
バイレベル最適化(BO)は多くの現代の機械学習問題を解決する強力なツールとして生まれてきた。
既存の勾配法では、ヤコビアンあるいはヘッセンベクトル計算による二階微分近似が必要となる。
本稿では,進化戦略(ES)に基づく新しいBOアルゴリズムを提案し,BOの過勾配における応答ヤコビ行列を近似する。
論文 参考訳(メタデータ) (2021-10-13T19:36:50Z) - Continuous-Time Fitted Value Iteration for Robust Policies [93.25997466553929]
ハミルトン・ヤコビ・ベルマン方程式の解法は、制御、ロボティクス、経済学を含む多くの領域において重要である。
連続適合値反復(cFVI)とロバスト適合値反復(rFVI)を提案する。
これらのアルゴリズムは、多くの連続制御問題の非線形制御-アフィンダイナミクスと分離可能な状態とアクション報酬を利用する。
論文 参考訳(メタデータ) (2021-10-05T11:33:37Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。