論文の概要: Learning Optimal Control with Stochastic Models of Hamiltonian Dynamics
- arxiv url: http://arxiv.org/abs/2111.08108v1
- Date: Mon, 15 Nov 2021 22:13:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-17 15:26:43.460494
- Title: Learning Optimal Control with Stochastic Models of Hamiltonian Dynamics
- Title(参考訳): ハミルトニアンダイナミクスの確率モデルによる最適制御の学習
- Authors: Chandrajit Bajaj and Minh Nguyen
- Abstract要約: 我々は、制約のないハミルトニアンの還元ハミルトニアンを学ぶ。
学習過程のロバスト性は、縮小ハミルトンの後方分布を漸進的に学習することによってさらに向上する。
我々の解の枠組みは、有限次元位相(状態)空間の最適制御問題だけでなく、無限次元の場合にも適用される。
- 参考スコア(独自算出の注目度): 3.9103337761169943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimal control problems can be solved by first applying the Pontryagin
maximum principle, followed by computing a solution of the corresponding
unconstrained Hamiltonian dynamical system. In this paper, and to achieve a
balance between robustness and efficiency, we learn a reduced Hamiltonian of
the unconstrained Hamiltonian. This reduced Hamiltonian is learned by going
backward in time and by minimizing the loss function resulting from application
of the Pontryagin maximum principle conditions. The robustness of our learning
process is then further improved by progressively learning a posterior
distribution of reduced Hamiltonians. This leads to a more efficient sampling
of the generalized coordinates (position, velocity) of our phase space. Our
solution framework applies to not only optimal control problems with
finite-dimensional phase (state) spaces but also the infinite dimensional case.
- Abstract(参考訳): 最適制御問題は、まずポントリャーギンの最大原理を適用し、次に対応する非制約ハミルトン力学系の解を計算することで解決できる。
本稿では,ロバスト性と効率のバランスを達成するために,制約のないハミルトニアンの還元ハミルトニアンについて学ぶ。
この還元ハミルトニアンは時間を遡って学習し、ポントリャーギンの最大原理条件の適用による損失関数を最小化する。
学習過程のロバスト性は、縮小ハミルトンの後方分布を徐々に学習することによってさらに向上する。
これにより、位相空間の一般化された座標(位置、速度)をより効率的にサンプリングすることができる。
我々の解フレームワークは、有限次元位相(状態)空間の最適制御問題だけでなく、無限次元の場合にも適用される。
関連論文リスト
- Neural Time-Reversed Generalized Riccati Equation [60.92253836775246]
ハミルトン方程式は、コストテートとして知られる補助変数を通して最適性の解釈を提供する。
本稿では,前向きに作業することを目的とした,新しいニューラルベースによる最適制御手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T19:29:37Z) - A Graph Neural Network-Based QUBO-Formulated Hamiltonian-Inspired Loss
Function for Combinatorial Optimization using Reinforcement Learning [1.325953054381901]
グラフニューラルネットワーク(GNN)を用いた新しいモンティカルロ木探索手法を提案する。
PI-GNNに関連する行動パターンを特定し,その性能向上のための戦略を考案する。
また、RL法とQUBO法で定式化されたハミルトニアンとの橋渡しにも着目する。
論文 参考訳(メタデータ) (2023-11-27T19:33:14Z) - A minimax optimal control approach for robust neural ODEs [49.1574468325115]
我々は、頑健な制御の観点から、ニューラルなODEの敵対的訓練に対処する。
我々はポントリャーギンの最大原理の形で一階最適条件を導出する。
論文 参考訳(メタデータ) (2023-10-26T17:07:43Z) - Solving the Side-Chain Packing Arrangement of Proteins from
Reinforcement Learned Stochastic Decision Making [3.4830782050102864]
タンパク質構造予測は、計算分子生物学における根本的な問題である。
我々は、ポントリャーギン最大原理(PMP)のパラメタライズドハミルトン版に基づく強化学習フレームワークを開発する。
我々のRL実装では、ソフトアクター批判手法を採用していますが、A2C、A3C、PPOに基づく他のRLトレーニングを置き換えることができます。
論文 参考訳(メタデータ) (2022-12-06T20:44:24Z) - A control method for solving high-dimensional Hamiltonian systems
through deep neural networks [0.2752817022620644]
まず、ハミルトニアン制御系がまさに解決すべき問題であるような対応する最適制御問題を導入し、その後、制御問題の異なるケースに適した2つの異なるアルゴリズムを開発し、深層ニューラルネットワークによる制御を近似する。
数値的な結果から、FBSDEを解く観点から以前に開発されたDeep FBSDE法と比較して、新しいアルゴリズムはより高速に収束する。
論文 参考訳(メタデータ) (2021-11-04T05:22:08Z) - Deep Learning Approximation of Diffeomorphisms via Linear-Control
Systems [91.3755431537592]
我々は、制御に線形に依存する$dot x = sum_i=1lF_i(x)u_i$という形の制御系を考える。
対応するフローを用いて、コンパクトな点のアンサンブル上の微分同相写像の作用を近似する。
論文 参考訳(メタデータ) (2021-10-24T08:57:46Z) - Continuous-Time Fitted Value Iteration for Robust Policies [93.25997466553929]
ハミルトン・ヤコビ・ベルマン方程式の解法は、制御、ロボティクス、経済学を含む多くの領域において重要である。
連続適合値反復(cFVI)とロバスト適合値反復(rFVI)を提案する。
これらのアルゴリズムは、多くの連続制御問題の非線形制御-アフィンダイナミクスと分離可能な状態とアクション報酬を利用する。
論文 参考訳(メタデータ) (2021-10-05T11:33:37Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Solving stochastic optimal control problem via stochastic maximum
principle with deep learning method [0.2064612766965483]
新しい制御問題を解くために3つのアルゴリズムが提案されている。
この手法の重要な応用は、完全非線形PDEの一種に対応するサブ線形期待値を計算することである。
論文 参考訳(メタデータ) (2020-07-05T02:28:43Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。