論文の概要: Anticipating the Long-Term Effect of Online Learning in Control
- arxiv url: http://arxiv.org/abs/2007.12377v1
- Date: Fri, 24 Jul 2020 07:00:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 06:21:29.398864
- Title: Anticipating the Long-Term Effect of Online Learning in Control
- Title(参考訳): 制御におけるオンライン学習の長期的効果予測
- Authors: Alexandre Capone, Sandra Hirche
- Abstract要約: AntLerは、学習を予想する学習ベースの制御法則の設計アルゴリズムである。
AntLer は確率 1 と任意に最適な解を近似することを示す。
- 参考スコア(独自算出の注目度): 75.6527644813815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Control schemes that learn using measurement data collected online are
increasingly promising for the control of complex and uncertain systems.
However, in most approaches of this kind, learning is viewed as a side effect
that passively improves control performance, e.g., by updating a model of the
system dynamics. Determining how improvements in control performance due to
learning can be actively exploited in the control synthesis is still an open
research question. In this paper, we present AntLer, a design algorithm for
learning-based control laws that anticipates learning, i.e., that takes the
impact of future learning in uncertain dynamic settings explicitly into
account. AntLer expresses system uncertainty using a non-parametric
probabilistic model. Given a cost function that measures control performance,
AntLer chooses the control parameters such that the expected cost of the
closed-loop system is minimized approximately. We show that AntLer approximates
an optimal solution arbitrarily accurately with probability one. Furthermore,
we apply AntLer to a nonlinear system, which yields better results compared to
the case where learning is not anticipated.
- Abstract(参考訳): オンラインに収集された測定データを用いて学習する制御スキームは、複雑で不確定なシステムの制御にますます期待されている。
しかし、この種のほとんどのアプローチでは、学習は、例えばシステムのダイナミクスのモデルを更新することで、受動的に制御性能を改善する副作用と見なされる。
制御合成において、学習による制御性能の向上を積極的に活用する方法については、まだオープンな研究課題である。
本稿では,不確定な動的環境における将来の学習の影響を明示的に考慮し,学習を想定した学習に基づく制御則の設計アルゴリズム antler を提案する。
antlerは非パラメトリック確率モデルを用いてシステムの不確かさを表現する。
制御性能を測定するコスト関数が与えられたとき、アントラーは閉ループシステムの期待コストをほぼ最小にする制御パラメータを選択する。
AntLer は確率 1 と任意に最適な解を近似することを示す。
さらに,非線形系に antler を適用することにより,学習が期待できない場合に比べ,より良い結果が得られる。
関連論文リスト
- Online Control-Informed Learning [4.907545537403502]
本稿では,リアルタイムに学習・制御タスクの幅広いクラスを解決するためのオンライン制御情報学習フレームワークを提案する。
任意のロボットを調整可能な最適制御系として考慮し,拡張カルマンフィルタ(EKF)に基づくオンラインパラメータ推定器を提案する。
提案手法は,データ中の雑音を効果的に管理することにより,学習の堅牢性も向上する。
論文 参考訳(メタデータ) (2024-10-04T21:03:16Z) - Active Learning for Control-Oriented Identification of Nonlinear Systems [26.231260751633307]
本稿では,非線形力学の一般クラスに適した能動学習アルゴリズムの最初の有限サンプル解析について述べる。
ある設定では、アルゴリズムの過剰な制御コストは、対数係数まで、最適な速度を達成する。
我々は,非線形システムの制御におけるアクティブな制御指向探索の利点を示すとともに,シミュレーションにおける我々のアプローチを検証する。
論文 参考訳(メタデータ) (2024-04-13T15:40:39Z) - Optimal Exploration for Model-Based RL in Nonlinear Systems [14.540210895533937]
未知の非線形力学系を制御する学習は、強化学習と制御理論の基本的な問題である。
本研究では,タスク依存メトリックにおける不確実性を低減するために,効率よくシステムを探索できるアルゴリズムを開発した。
我々のアルゴリズムは、ポリシー最適化から任意のシステムにおける最適な実験設計への一般的な還元に依存しており、独立した関心を持つ可能性がある。
論文 参考訳(メタデータ) (2023-06-15T15:47:50Z) - Active Learning of Discrete-Time Dynamics for Uncertainty-Aware Model Predictive Control [46.81433026280051]
本稿では,非線形ロボットシステムの力学を積極的にモデル化する自己教師型学習手法を提案する。
我々のアプローチは、目に見えない飛行条件に一貫して適応することで、高いレジリエンスと一般化能力を示す。
論文 参考訳(メタデータ) (2022-10-23T00:45:05Z) - Improving the Performance of Robust Control through Event-Triggered
Learning [74.57758188038375]
LQR問題における不確実性に直面していつ学習するかを決定するイベントトリガー学習アルゴリズムを提案する。
本研究では,ロバストな制御器ベースライン上での性能向上を数値例で示す。
論文 参考訳(メタデータ) (2022-07-28T17:36:37Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - The Impact of Data on the Stability of Learning-Based Control- Extended
Version [63.97366815968177]
本稿では,Lyapunovをベースとした,認証制御性能に対するデータの影響の定量化手法を提案する。
ガウス過程を通じて未知系の力学をモデル化することにより、モデルの不確実性と安定性条件の満足度の間の相互関係を決定できる。
論文 参考訳(メタデータ) (2020-11-20T19:10:01Z) - Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-03-25T06:00:33Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。