論文の概要: Regret-optimal Estimation and Control
- arxiv url: http://arxiv.org/abs/2106.12097v1
- Date: Tue, 22 Jun 2021 23:14:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-24 15:09:17.407006
- Title: Regret-optimal Estimation and Control
- Title(参考訳): 回帰最適推定と制御
- Authors: Gautam Goel, Babak Hassibi
- Abstract要約: 後悔最適推定器と後悔最適制御器は状態空間形式で導出可能であることを示す。
非線形力学系に対するモデル予測制御(MPC)と拡張KalmanFilter(EKF)の残差最適類似性を提案する。
- 参考スコア(独自算出の注目度): 52.28457815067461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider estimation and control in linear time-varying dynamical systems
from the perspective of regret minimization. Unlike most prior work in this
area, we focus on the problem of designing causal estimators and controllers
which compete against a clairvoyant noncausal policy, instead of the best
policy selected in hindsight from some fixed parametric class. We show that the
regret-optimal estimator and regret-optimal controller can be derived in
state-space form using operator-theoretic techniques from robust control and
present tight,data-dependent bounds on the regret incurred by our algorithms in
terms of the energy of the disturbances. Our results can be viewed as extending
traditional robust estimation and control, which focuses on minimizing
worst-case cost, to minimizing worst-case regret. We propose regret-optimal
analogs of Model-Predictive Control (MPC) and the Extended KalmanFilter (EKF)
for systems with nonlinear dynamics and present numerical experiments which
show that our regret-optimal algorithms can significantly outperform standard
approaches to estimation and control.
- Abstract(参考訳): 後悔最小化の観点から線形時間変動力学系の推定と制御を考察する。
この領域における多くの先行研究とは異なり、固定パラメトリッククラスから後から選択された最良のポリシーの代わりに、透視的非因果的ポリシーと競合する因果推定器やコントローラを設計する問題に焦点を当てる。
そこで本研究では,ロバスト制御からの演算子理論的手法を用いて,後悔・最適推定器と後悔・最適制御器を状態空間形式で導出し,不規則のエネルギーの観点からアルゴリズムが生み出す後悔の厳密なデータ依存境界を提示できることを示す。
従来のロバストな推定と制御は,最悪の場合のコストを最小化し,最悪の場合の後悔を最小限に抑えることに重点を置いている。
本稿では,非線形力学系に対するモデル予測制御(mpc)と拡張カルマンフィルタ(ekf)の後悔-最適類似性を提案し,後悔-最適アルゴリズムが推定と制御の標準的なアプローチを大幅に上回ることを示す数値実験を行う。
関連論文リスト
- Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Sub-linear Regret in Adaptive Model Predictive Control [56.705978425244496]
本稿では,STT-MPC (Self-Tuning tube-based Model Predictive Control) について述べる。
システム力学を最初に認識したアルゴリズムと比較して,アルゴリズムの後悔を解析する。
論文 参考訳(メタデータ) (2023-10-07T15:07:10Z) - Follow the Clairvoyant: an Imitation Learning Approach to Optimal
Control [4.978565634673048]
競合解析のレンズによる力学系の制御について考察する。
最適コストが理想的な閉ループ動作に関する粗い情報のみを提供するという観測により、トラッキングエラーを最小化することを提案する。
論文 参考訳(メタデータ) (2022-11-14T14:15:12Z) - Steady-State Error Compensation in Reference Tracking and Disturbance
Rejection Problems for Reinforcement Learning-Based Control [0.9023847175654602]
強化学習(Reinforcement Learning, RL)は、自動制御アプリケーションにおける将来的なトピックである。
アクター批判に基づくRLコントローラのためのイニシアティブアクション状態拡張(IASA)が導入される。
この拡張は専門家の知識を必要とせず、アプローチモデルを無償にしておく。
論文 参考訳(メタデータ) (2022-01-31T16:29:19Z) - Regret Analysis of Learning-Based MPC with Partially-Unknown Cost
Function [5.601217969637838]
探索/探索のトレードオフは、データ駆動および適応制御において固有の課題である。
本稿では、最適制御動作の基準として、全てのシステムパラメータの完全な知識を持つ有限水平オラクルコントローラを提案する。
我々は,このオラクル有限ホライゾンコントローラに関して,低後悔を達成できる学習ベースのポリシーを開発する。
論文 参考訳(メタデータ) (2021-08-04T22:43:51Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Regret-optimal control in dynamic environments [39.76359052907755]
我々は、後から選択した制御行動の最良の動的シーケンスに対する後悔を最小限に抑えるオンラインコントローラを設計する問題に焦点をあてる。
我々は,新たなH_infty$制御への還元により,後悔最適制御系の状態空間構造を導出する。
本稿では,H_infty$-Optimal コントローラの性能と対向環境との相補性を示す数値実験について述べる。
論文 参考訳(メタデータ) (2020-10-20T17:32:17Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。