論文の概要: Meta-Adaptive Nonlinear Control: Theory and Algorithms
- arxiv url: http://arxiv.org/abs/2106.06098v1
- Date: Fri, 11 Jun 2021 00:39:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-14 14:21:00.898419
- Title: Meta-Adaptive Nonlinear Control: Theory and Algorithms
- Title(参考訳): メタ適応非線形制御:理論とアルゴリズム
- Authors: Guanya Shi, Kamyar Azizzadenesheli, Soon-Jo Chung, Yisong Yue
- Abstract要約: オンラインメタ環境制御(OMAC)と呼ばれる適応非線形制御のためのオンラインマルチタスク学習手法を提案する。
我々は、様々な条件下でアプローチのインスタンス化を提供し、マルチタスク適応非線形制御のための最初の非漸近的なエンドツーエンド収束を保証する。
- 参考スコア(独自算出の注目度): 47.122874727499216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an online multi-task learning approach for adaptive nonlinear
control, which we call Online Meta-Adaptive Control (OMAC). The goal is to
control a nonlinear system subject to adversarial disturbance and unknown
$\textit{environment-dependent}$ nonlinear dynamics, under the assumption that
the environment-dependent dynamics can be well captured with some shared
representation. Our approach is motivated by robot control, where a robotic
system encounters a sequence of new environmental conditions that it must
quickly adapt to. A key emphasis is to integrate online representation learning
with established methods from control theory, in order to arrive at a unified
framework that yields both control-theoretic and learning-theoretic guarantees.
We provide instantiations of our approach under varying conditions, leading to
the first non-asymptotic end-to-end convergence guarantee for multi-task
adaptive nonlinear control. OMAC can also be integrated with deep
representation learning. Experiments show that OMAC significantly outperforms
conventional adaptive control approaches which do not learn the shared
representation.
- Abstract(参考訳): オンラインメタ適応制御(OMAC)と呼ばれる適応非線形制御のためのオンラインマルチタスク学習手法を提案する。
目的は、環境依存のダイナミクスが共有表現でうまく捉えられることを前提に、逆乱や未知の$\textit{environment-dependent}$非線形ダイナミクスの非線形システムを制御することである。
我々のアプローチはロボット制御によって動機付けられており、ロボットシステムは迅速に適応しなければならない新しい環境条件に遭遇する。
オンライン表現学習を制御理論から確立した手法に統合し、制御理論と学習理論の両方の保証をもたらす統一フレームワークに到達させることが重要となる。
我々は,様々な条件下でのアプローチのインスタンス化を行い,マルチタスク適応非線形制御のための最初の非漸近的エンドツーエンド収束保証を実現する。
OMACは深層表現学習と統合することもできる。
実験の結果、OMACは共有表現を学習しない従来の適応制御手法よりも大幅に優れていた。
関連論文リスト
- Parameter-Adaptive Approximate MPC: Tuning Neural-Network Controllers without Retraining [50.00291020618743]
この研究は、大規模なデータセットを再計算し、再トレーニングすることなくオンラインチューニングが可能な、新しいパラメータ適応型AMPCアーキテクチャを導入している。
資源制約の厳しいマイクロコントローラ(MCU)を用いた2種類の実カートポールシステムの揺らぎを制御し,パラメータ適応型AMPCの有効性を示す。
これらの貢献は、現実世界のシステムにおけるAMPCの実践的応用に向けた重要な一歩である。
論文 参考訳(メタデータ) (2024-04-08T20:02:19Z) - An Adaptive Fuzzy Reinforcement Learning Cooperative Approach for the
Autonomous Control of Flock Systems [4.961066282705832]
この研究は、群集システムの自律制御に適応的な分散ロバスト性技術を導入している。
比較的柔軟な構造は、様々な目的を同時に狙うオンラインファジィ強化学習スキームに基づいている。
動的障害に直面した場合のレジリエンスに加えて、アルゴリズムはフィードバック信号としてエージェントの位置以上のものを必要としない。
論文 参考訳(メタデータ) (2023-03-17T13:07:35Z) - Adaptive Robust Model Predictive Control via Uncertainty Cancellation [25.736296938185074]
本稿では,動的に重要な不確かさを補う学習に基づく頑健な予測制御アルゴリズムを提案する。
我々は、一定の等価な「推定とキャンセル」制御法に着想を得た、非線形フィードバックポリシーのクラスを最適化する。
論文 参考訳(メタデータ) (2022-12-02T18:54:23Z) - Adaptive Robust Model Predictive Control with Matched and Unmatched
Uncertainty [28.10549712956161]
離散時間系のダイナミクスにおける大きな不確実性を扱うことができる学習ベースの堅牢な予測制御アルゴリズムを提案する。
既存の学習に基づく予測制御アルゴリズムが大規模な不確実性が存在する場合の安全性を確保することができず、性能が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-16T17:47:02Z) - Learning-based Adaptive Control via Contraction Theory [7.918886297003018]
パラメトリック不確実性を有する非線形システムのための新しいディープラーニングに基づく適応制御フレームワーク、Adaptive Neural Contraction Metric (aNCM) を提案する。
aNCMは、不確実性の下でシステムの軌道の安定性と指数有界性を保証する最適適応収縮メトリックのニューラルネットワークモデルを使用する。
論文 参考訳(メタデータ) (2021-03-04T12:19:52Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z) - Learning Constrained Adaptive Differentiable Predictive Control Policies
With Guarantees [1.1086440815804224]
本稿では,線形システムに対する制約付きニューラルコントロールポリシーの学習方法として,微分可能予測制御(DPC)を提案する。
我々は,モデル予測制御(MPC)損失関数の逆伝搬と,微分可能な閉ループ系力学モデルによるペナルティの制約により,直接的な政策勾配を求めるために,自動微分を用いる。
論文 参考訳(メタデータ) (2020-04-23T14:24:44Z) - Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-03-25T06:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。