論文の概要: Neural ODEs as Feedback Policies for Nonlinear Optimal Control
- arxiv url: http://arxiv.org/abs/2210.11245v1
- Date: Thu, 20 Oct 2022 13:19:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 15:53:13.925241
- Title: Neural ODEs as Feedback Policies for Nonlinear Optimal Control
- Title(参考訳): 非線形最適制御のためのフィードバックポリシーとしてのニューラルode
- Authors: Ilya Orson Sandoval, Panagiotis Petsagkourakis, Ehecatl Antonio del
Rio-Chanona
- Abstract要約: ニューラルネットワークをパラメータ化した微分方程式として連続時間力学をモデル化するために、ニューラル常微分方程式(ニューラルODE)を用いる。
本稿では,一般非線形最適制御問題の解法としてニューラル・オードとして提案するニューラル・コントロール・ポリシーを提案する。
- 参考スコア(独自算出の注目度): 1.8514606155611764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural ordinary differential equations (Neural ODEs) model continuous time
dynamics as differential equations parametrized with neural networks. Thanks to
their modeling flexibility, they have been adopted for multiple tasks where the
continuous time nature of the process is specially relevant, as in system
identification and time series analysis. When applied in a control setting, it
is possible to adapt their use to approximate optimal nonlinear feedback
policies. This formulation follows the same approach as policy gradients in
reinforcement learning, covering the case where the environment consists of
known deterministic dynamics given by a system of differential equations. The
white box nature of the model specification allows the direct calculation of
policy gradients through sensitivity analysis, avoiding the inexact and
inefficient gradient estimation through sampling. In this work we propose the
use of a neural control policy posed as a Neural ODE to solve general nonlinear
optimal control problems while satisfying both state and control constraints,
which are crucial for real world scenarios. Since the state feedback policy
partially modifies the model dynamics, the whole space phase of the system is
reshaped upon the optimization. This approach is a sensible approximation to
the historically intractable closed loop solution of nonlinear control problems
that efficiently exploits the availability of a dynamical system model.
- Abstract(参考訳): 神経常微分方程式(neural ordinary differential equation、neural odes)は、ニューラルネットワークにパラメトリズされた微分方程式として連続時間ダイナミクスをモデル化する。
モデリングの柔軟性のおかげで、システムの識別や時系列分析のように、プロセスの連続的な時間的性質が特に関係する複数のタスクに採用されている。
制御設定に適用した場合、最適な非線形フィードバックポリシーにそれらの使用を適用することができる。
この定式化は強化学習におけるポリシー勾配と同じアプローチに従っており、環境が微分方程式系によって与えられる既知の決定論的ダイナミクスからなる場合をカバーしている。
モデル仕様のホワイトボックスの性質は、感度分析によるポリシー勾配の直接計算を可能にし、サンプリングによる不正確な非効率な勾配推定を避けることができる。
そこで本研究では,本研究で提案するニューラル・オデムとして提示されるニューラル・コントロール・ポリシーを用いて,実世界シナリオにおいて重要な状態制約と制御制約を満たしながら,一般的な非線形最適制御問題を解く手法を提案する。
状態フィードバックポリシはモデルダイナミクスを部分的に変更するため、システム全体の空間位相は最適化に基づいて再構成される。
このアプローチは、動的システムモデルの可用性を効率的に活用する非線形制御問題の歴史的に難解な閉ループ解に対する妥当な近似である。
関連論文リスト
- Receding Hamiltonian-Informed Optimal Neural Control and State Estimation for Closed-Loop Dynamical Systems [4.05766189327054]
Hamiltonian-Informed Optimal Neural (Hion) コントローラは、動的システムのためのニューラルネットワークベースの新しいクラスである。
ヒオンコントローラは将来の状態を推定し、ポントリャーギンの原理を用いて最適制御入力を計算する。
論文 参考訳(メタデータ) (2024-11-02T16:06:29Z) - Real-time optimal control of high-dimensional parametrized systems by deep learning-based reduced order models [3.5161229331588095]
複数のシナリオにおけるパラメタライズされたPDEの観点で記述されたシステムの迅速な制御のための,非侵襲的なディープラーニングベースリダクションオーダーモデリング(DL-ROM)手法を提案する。
i)データ生成、(ii)次元削減、および(iii)オフラインフェーズでのニューラルネットワークトレーニングの後、任意のシナリオにおいて、最適制御戦略をオンラインフェーズで迅速に検索することができる。
論文 参考訳(メタデータ) (2024-09-09T15:20:24Z) - Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Neural Time-Reversed Generalized Riccati Equation [60.92253836775246]
ハミルトン方程式は、コストテートとして知られる補助変数を通して最適性の解釈を提供する。
本稿では,前向きに作業することを目的とした,新しいニューラルベースによる最適制御手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T19:29:37Z) - A Neural RDE approach for continuous-time non-Markovian stochastic
control problems [4.155942878350882]
ニューラル粗微分方程式(ニューラルRDE)を用いた連続時間非マルコフ制御問題のための新しい枠組みを提案する。
非マルコビアン性は、システム係数の時間遅延効果や駆動ノイズによる制御問題に自然に現れる。
制御過程を状態過程によって駆動されるニューラルRDEの解としてモデル化することにより,制御状態のジョイントダイナミクスが制御不能で拡張されたニューラルRDEによって制御されていることを示す。
論文 参考訳(メタデータ) (2023-06-25T14:30:33Z) - Learning-enhanced Nonlinear Model Predictive Control using
Knowledge-based Neural Ordinary Differential Equations and Deep Ensembles [5.650647159993238]
本研究では,知識に基づくニューラル常微分方程式(KNODE)とディープアンサンブルというディープラーニングツールを活用し,モデル予測制御(MPC)の予測精度を向上させる。
特に、KNODEモデルのアンサンブル(KNODEアンサンブル)を学習し、真のシステム力学の正確な予測を得る。
KNODEアンサンブルはより正確な予測を提供し、提案した非線形MPCフレームワークの有効性と閉ループ性能を示す。
論文 参考訳(メタデータ) (2022-11-24T23:51:18Z) - Learning Stochastic Parametric Differentiable Predictive Control
Policies [2.042924346801313]
本稿では、ニューラルネットワークポリシーの教師なし学習のための、パラメトリック微分可能予測制御(SP-DPC)と呼ばれるスケーラブルな代替手法を提案する。
SP-DPCはパラメトリック制約最適制御問題に対する決定論的近似として定式化される。
閉ループ制約と確率満足度に関するSP-DPC法を用いて学習したポリシーに関する理論的確率的保証を提供する。
論文 参考訳(メタデータ) (2022-03-02T22:46:32Z) - A Priori Denoising Strategies for Sparse Identification of Nonlinear
Dynamical Systems: A Comparative Study [68.8204255655161]
本研究では, 局所的およびグローバルな平滑化手法の性能と, 状態測定値の偏差について検討・比較する。
一般に,測度データセット全体を用いたグローバルな手法は,局所点の周辺に隣接するデータサブセットを用いる局所的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-01-29T23:31:25Z) - Neural ODE Processes [64.10282200111983]
NDP(Neural ODE Process)は、Neural ODEの分布によって決定される新しいプロセスクラスである。
我々のモデルは,少数のデータポイントから低次元システムのダイナミクスを捉えることができることを示す。
論文 参考訳(メタデータ) (2021-03-23T09:32:06Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Time Dependence in Non-Autonomous Neural ODEs [74.78386661760662]
時変重みを持つニューラルODEの新しいファミリーを提案する。
我々は、速度と表現能力の両面で、従来のニューラルODEの変形よりも優れていた。
論文 参考訳(メタデータ) (2020-05-05T01:41:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。