論文の概要: Online Algorithms and Policies Using Adaptive and Machine Learning
Approaches
- arxiv url: http://arxiv.org/abs/2105.06577v7
- Date: Fri, 9 Jun 2023 21:10:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 03:39:47.396331
- Title: Online Algorithms and Policies Using Adaptive and Machine Learning
Approaches
- Title(参考訳): 適応的および機械学習アプローチを用いたオンラインアルゴリズムとポリシー
- Authors: Anuradha M. Annaswamy, Anubhav Guha, Yingnan Cui, Sunbochen Tang,
Peter A. Fisher, Joseph E. Gaudio
- Abstract要約: 非線形力学系の2つのクラスが考慮され、どちらも制御アフィンである。
本稿では,外ループにおける強化学習に基づくポリシーの組み合わせを,名目力学の安定性と最適性を確保するために好適に選択する。
リアルタイム制御による安定性保証の確立に加えて、AC-RLコントローラは、持続的な励振を伴うパラメータ学習につながることも示している。
- 参考スコア(独自算出の注目度): 0.22020053359163297
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper considers the problem of real-time control and learning in dynamic
systems subjected to parametric uncertainties. We propose a combination of a
Reinforcement Learning (RL) based policy in the outer loop suitably chosen to
ensure stability and optimality for the nominal dynamics, together with
Adaptive Control (AC) in the inner loop so that in real-time AC contracts the
closed-loop dynamics towards a stable trajectory traced out by RL. Two classes
of nonlinear dynamic systems are considered, both of which are control-affine.
The first class of dynamic systems utilizes equilibrium points %with expansion
forms around these points and a Lyapunov approach while second class of
nonlinear systems uses contraction theory. AC-RL controllers are proposed for
both classes of systems and shown to lead to online policies that guarantee
stability using a high-order tuner and accommodate parametric uncertainties and
magnitude limits on the input. In addition to establishing a stability
guarantee with real-time control, the AC-RL controller is also shown to lead to
parameter learning with persistent excitation for the first class of systems.
Numerical validations of all algorithms are carried out using a quadrotor
landing task on a moving platform.
- Abstract(参考訳): 本稿では,パラメトリック不確実性を考慮した動的システムにおける実時間制御と学習の問題を考える。
本稿では,外ループにおける強化学習(RL)に基づくポリシーと,内ループにおける適応制御(AC)とを併用して,実時間ACがRLによって追従される安定軌道に向けて閉ループ力学を収縮させる方法を提案する。
非線形力学系の2つのクラスが考慮され、どちらも制御アフィンである。
力学系の第一級は平衡点 % をこれらの点の周りの展開形式とリャプノフアプローチで利用し、第二級非線形系は縮約理論を用いる。
AC-RLコントローラはいずれのシステムにも提案されており、高次チューナを用いた安定性を保証するオンラインポリシーと、パラメトリック不確実性と入力の規模制限を許容する。
リアルタイム制御による安定性保証の確立に加えて、AC-RLコントローラは、第1クラスのシステムに対して永続的な励振を伴うパラメータ学習につながることも示している。
全アルゴリズムの数値検証は、移動プラットフォーム上の四重項ランディングタスクを用いて行う。
関連論文リスト
- Learning to Boost the Performance of Stable Nonlinear Systems [0.0]
クローズドループ安定性保証による性能ブースティング問題に対処する。
本手法は,安定な非線形システムのための性能ブースティング制御器のニューラルネットワーククラスを任意に学習することを可能にする。
論文 参考訳(メタデータ) (2024-05-01T21:11:29Z) - Learning Over Contracting and Lipschitz Closed-Loops for
Partially-Observed Nonlinear Systems (Extended Version) [1.2430809884830318]
本稿では非線形な部分観測力学系に対する学習に基づく制御のためのポリシーパラメータ化を提案する。
結果のYoula-RENパラメータ化は自動的に安定性(収縮)とユーザチューニング可能な堅牢性(Lipschitz)を満足することを示した。
We found that the Youla-REN are also like to existing learning-based and optimal control method, also ensure stability and exhibiting improve robustness to adversarial disturbances。
論文 参考訳(メタデータ) (2023-04-12T23:55:56Z) - Data-Driven Control with Inherent Lyapunov Stability [3.695480271934742]
本研究では,非線形力学モデルと安定化制御器のパラメトリック表現をデータから共同学習する手法として,インヒーレント・リャプノフ安定度制御(CoILS)を提案する。
新たな構成によって保証される学習力学の安定化性に加えて、学習した制御器は学習力学の忠実性に関する特定の仮定の下で真の力学を安定化することを示す。
論文 参考訳(メタデータ) (2023-03-06T14:21:42Z) - Best of Both Worlds in Online Control: Competitive Ratio and Policy
Regret [61.59646565655169]
我々は,最近提案されたオンライン制御アルゴリズムが,両世界のベストを達成していることを示す。
線形力学系が未知の場合には, 準線形後悔対最適競争政策が達成可能であると結論づける。
論文 参考訳(メタデータ) (2022-11-21T07:29:08Z) - Actor-Critic based Improper Reinforcement Learning [61.430513757337486]
我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。
本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T05:55:02Z) - KCRL: Krasovskii-Constrained Reinforcement Learning with Guaranteed
Stability in Nonlinear Dynamical Systems [66.9461097311667]
形式的安定性を保証するモデルに基づく強化学習フレームワークを提案する。
提案手法は,特徴表現を用いて信頼区間までシステムダイナミクスを学習する。
我々は、KCRLが、基礎となる未知のシステムとの有限数の相互作用において安定化ポリシーを学ぶことが保証されていることを示す。
論文 参考訳(メタデータ) (2022-06-03T17:27:04Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z) - Reinforcement Learning Control of Constrained Dynamic Systems with
Uniformly Ultimate Boundedness Stability Guarantee [12.368097742148128]
強化学習(RL)は複雑な非線形制御問題に対して有望である。
データベースの学習アプローチは、安定性を保証していないことで悪名高い。
本稿では,古典的なリャプノフ法を用いて,データのみに基づいて一様極大境界性安定性(UUB)を解析する。
論文 参考訳(メタデータ) (2020-11-13T12:41:56Z) - Actor-Critic Reinforcement Learning for Control with Stability Guarantee [9.400585561458712]
強化学習(RL)と深層学習の統合は、様々なロボット制御タスクにおいて印象的なパフォーマンスを達成した。
しかし、データのみを用いることで、モデルフリーなRLでは安定性は保証されない。
本稿では,古典的なリアプノフ法を制御理論に適用することにより,閉ループ安定性を保証できるアクタクリティカルな制御用RLフレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-29T16:14:30Z) - Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-03-25T06:00:33Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。