論文の概要: Accelerated Continuous-Time Approximate Dynamic Programming via
Data-Assisted Hybrid Control
- arxiv url: http://arxiv.org/abs/2204.12707v1
- Date: Wed, 27 Apr 2022 05:36:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-28 14:21:42.649316
- Title: Accelerated Continuous-Time Approximate Dynamic Programming via
Data-Assisted Hybrid Control
- Title(参考訳): データアシストハイブリッド制御による連続時間近似動的プログラミングの高速化
- Authors: Daniel E. Ochoa, Jorge I. Poveda
- Abstract要約: 本研究では,アクター・クリティックな構造に動的運動量を組み込んだアルゴリズムを導入し,アフィン構造を入力とする連続時間動植物を制御する。
アルゴリズムに動的運動量を導入することにより、閉ループ系の収束特性を加速することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a new closed-loop architecture for the online solution of
approximate optimal control problems in the context of continuous-time systems.
Specifically, we introduce the first algorithm that incorporates dynamic
momentum in actor-critic structures to control continuous-time dynamic plants
with an affine structure in the input. By incorporating dynamic momentum in our
algorithm, we are able to accelerate the convergence properties of the
closed-loop system, achieving superior transient performance compared to
traditional gradient-descent based techniques. In addition, by leveraging the
existence of past recorded data with sufficiently rich information properties,
we dispense with the persistence of excitation condition traditionally imposed
on the regressors of the critic and the actor. Given that our continuous-time
momentum-based dynamics also incorporate periodic discrete-time resets that
emulate restarting techniques used in the machine learning literature, we
leverage tools from hybrid dynamical systems theory to establish asymptotic
stability properties for the closed-loop system. We illustrate our results with
a numerical example.
- Abstract(参考訳): 本稿では,連続時間システムにおける最適制御問題のオンライン解決のための新しいクローズドループアーキテクチャを提案する。
具体的には,アクター・クリティックな構造に動的モーメントを組み込んだ最初のアルゴリズムを導入し,アフィン構造を持つ連続時間動植物を制御する。
アルゴリズムに動的運動量を導入することにより,閉ループ系の収束特性を加速し,従来の勾配拡散法に比べて優れた過渡性能が得られる。
また,過去の記録データの存在を十分に豊富な情報特性で活用することにより,従来,批評家や俳優の残留者に課されていた励磁条件の持続性を損なう。
連続運動量に基づくダイナミクスは、機械学習の文献で使われている再起動テクニックをエミュレートする周期的な離散時間リセットも含んでいるので、ハイブリッド力学系理論のツールを活用して閉ループ系の漸近安定性特性を確立する。
結果は数値的な例で示します。
関連論文リスト
- Amortized Control of Continuous State Space Feynman-Kac Model for Irregular Time Series [14.400596021890863]
医療、気候、経済などの現実世界のデータセットは、しばしば不規則な時系列として収集される。
本稿では,連続状態空間モデル (ACSSM) を時系列の連続的動的モデリングに用いるためのアモータイズ制御を提案する。
論文 参考訳(メタデータ) (2024-10-08T01:27:46Z) - Learning Noise-Robust Stable Koopman Operator for Control with Hankel DMD [1.0742675209112622]
非線形力学系のクープマン演算子に対するノイズロスト学習フレームワークを提案する。
我々は,Coopman演算子の安定なパラメータ化と,ロールアウト繰り返し損失の漸進的学習戦略を開発する。
論文 参考訳(メタデータ) (2024-08-13T03:39:34Z) - Physics-Inspired Temporal Learning of Quadrotor Dynamics for Accurate
Model Predictive Trajectory Tracking [76.27433308688592]
クオーロタのシステムダイナミクスを正確にモデル化することは、アジャイル、安全、安定したナビゲーションを保証する上で非常に重要です。
本稿では,ロボットの経験から,四重項系の力学を純粋に学習するための新しい物理インスパイアされた時間畳み込みネットワーク(PI-TCN)を提案する。
提案手法は,スパース時間的畳み込みと高密度フィードフォワード接続の表現力を組み合わせて,正確なシステム予測を行う。
論文 参考訳(メタデータ) (2022-06-07T13:51:35Z) - Model-Based Reinforcement Learning via Stochastic Hybrid Models [39.83837705993256]
本稿では非線形モデリングと制御のハイブリッドシステムビューを採用する。
本稿では,データの時間的構造を捉えるシーケンスモデリングパラダイムについて考察する。
これらの時系列モデルは,ローカルフィードバックコントローラの抽出に使用するクローズドループ拡張を自然に認めていることを示す。
論文 参考訳(メタデータ) (2021-11-11T14:05:46Z) - Deep Explicit Duration Switching Models for Time Series [84.33678003781908]
状態依存型と時間依存型の両方のスイッチングダイナミクスを識別できるフレキシブルモデルを提案する。
状態依存スイッチングは、リカレントな状態-スイッチ接続によって実現される。
時間依存スイッチング動作を改善するために、明示的な期間カウント変数が使用される。
論文 参考訳(メタデータ) (2021-10-26T17:35:21Z) - Value Iteration in Continuous Actions, States and Time [99.00362538261972]
連続状態と動作に対する連続的適合値反復(cFVI)アルゴリズムを提案する。
非線形制御アフィンダイナミクスに対して最適なポリシを導出することができる。
物理システムのビデオは、urlhttps://sites.google.com/view/value-iteration.comで入手できる。
論文 参考訳(メタデータ) (2021-05-10T21:40:56Z) - Stochastically forced ensemble dynamic mode decomposition for
forecasting and analysis of near-periodic systems [65.44033635330604]
本稿では,観測力学を強制線形系としてモデル化した新しい負荷予測手法を提案する。
固有線型力学の利用は、解釈可能性やパーシモニーの観点から、多くの望ましい性質を提供することを示す。
電力グリッドからの負荷データを用いたテストケースの結果が提示される。
論文 参考訳(メタデータ) (2020-10-08T20:25:52Z) - Online Reinforcement Learning Control by Direct Heuristic Dynamic
Programming: from Time-Driven to Event-Driven [80.94390916562179]
時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。
ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。
イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
論文 参考訳(メタデータ) (2020-06-16T05:51:25Z) - Liquid Time-constant Networks [117.57116214802504]
本稿では,時間連続リカレントニューラルネットワークモデルについて紹介する。
暗黙の非線形性によって学習システムの力学を宣言する代わりに、線形一階力学系のネットワークを構築する。
これらのニューラルネットワークは安定かつ有界な振る舞いを示し、ニューラル常微分方程式の族の中で優れた表現性をもたらす。
論文 参考訳(メタデータ) (2020-06-08T09:53:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。