論文の概要: Regularity and stability of feedback relaxed controls
- arxiv url: http://arxiv.org/abs/2001.03148v2
- Date: Fri, 23 Jul 2021 14:33:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 05:24:31.794675
- Title: Regularity and stability of feedback relaxed controls
- Title(参考訳): フィードバック緩和制御の規則性と安定性
- Authors: Christoph Reisinger, Yufei Zhang
- Abstract要約: 本稿では,ロバストなフィードバック制御を設計するための一般探索報酬を用いた緩和制御正則化を提案する。
正規化制御問題の値関数とフィードバック制御の両方がパラメータ摂動に関してリプシッツ安定であることを示す。
- 参考スコア(独自算出の注目度): 4.48579723067867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a relaxed control regularization with general exploration
rewards to design robust feedback controls for multi-dimensional
continuous-time stochastic exit time problems. We establish that the
regularized control problem admits a H\"{o}lder continuous feedback control,
and demonstrate that both the value function and the feedback control of the
regularized control problem are Lipschitz stable with respect to parameter
perturbations. Moreover, we show that a pre-computed feedback relaxed control
has a robust performance in a perturbed system, and derive a first-order
sensitivity equation for both the value function and optimal feedback relaxed
control. These stability results provide a theoretical justification for recent
reinforcement learning heuristics that including an exploration reward in the
optimization objective leads to more robust decision making. We finally prove
first-order monotone convergence of the value functions for relaxed control
problems with vanishing exploration parameters, which subsequently enables us
to construct the pure exploitation strategy of the original control problem
based on the feedback relaxed controls.
- Abstract(参考訳): 本稿では,多次元連続時間確率出口時間問題に対する頑健なフィードバック制御を設計するための一般探索報酬を用いた緩和制御正則化を提案する。
我々は、正規化制御問題にH\"{o}lder連続フィードバック制御が認められることを証明し、パラメータ摂動に対する値関数と正規化制御問題のフィードバック制御の両方がリプシッツ安定であることを示す。
さらに、事前計算されたフィードバック緩和制御は摂動系において頑健な性能を示し、値関数と最適フィードバック緩和制御の両方に対して1次感度方程式を導出する。
これらの安定性は、最適化目標に探索報酬を含む最近の強化学習ヒューリスティックスの理論的正当化をもたらし、より堅牢な意思決定につながる。
最終的に、探索パラメータの消失による緩和制御問題に対する値関数の1次単調収束を証明し、フィードバック緩和制御に基づいて元の制御問題の純粋活用戦略を構築することができる。
関連論文リスト
- Unifying Controller Design for Stabilizing Nonlinear Systems with
Norm-Bounded Control Inputs [8.573073817861973]
本稿では,ノルム有界な入力制約を持つ非線形システムの安定化制御系の設計における課題を再考する。
Lin-Sontagの普遍的な公式を拡張し、汎用的な(状態に依存した)スケーリング項を導入することにより、統一的なコントローラ設計法を提案する。
論文 参考訳(メタデータ) (2024-03-05T15:06:16Z) - Robustness of Energy Landscape Controllers for Spin Rings under Coherent
Excitation Transport [0.0]
制御パラメータと制御パラメータの不確実性に対する励振伝達の忠実度を最適化するために設計された制御器の頑健性について検討する。
我々は,コヒーレントトランスポートに最適化された量子系が,正確な時間Tでの読み出しに最適化されているか,あるいはTのタイムウインドウで最適化されているかによって,誤差とログ感度の相関が著しく異なることを示した。
論文 参考訳(メタデータ) (2023-03-01T00:16:00Z) - Improving the Performance of Robust Control through Event-Triggered
Learning [74.57758188038375]
LQR問題における不確実性に直面していつ学習するかを決定するイベントトリガー学習アルゴリズムを提案する。
本研究では,ロバストな制御器ベースライン上での性能向上を数値例で示す。
論文 参考訳(メタデータ) (2022-07-28T17:36:37Z) - Recurrent Neural Network Controllers Synthesis with Stability Guarantees
for Partially Observed Systems [6.234005265019845]
本稿では、不確実な部分観測システムのための動的制御系として、リカレントニューラルネットワーク(RNN)の重要なクラスを考える。
本稿では、再パラメータ化空間における安定性条件を反復的に強制する計画的ポリシー勾配法を提案する。
数値実験により,本手法は,より少ないサンプルを用いて制御器の安定化を学習し,政策勾配よりも高い最終性能を達成することを示す。
論文 参考訳(メタデータ) (2021-09-08T18:21:56Z) - Regret-optimal Estimation and Control [52.28457815067461]
後悔最適推定器と後悔最適制御器は状態空間形式で導出可能であることを示す。
非線形力学系に対するモデル予測制御(MPC)と拡張KalmanFilter(EKF)の残差最適類似性を提案する。
論文 参考訳(メタデータ) (2021-06-22T23:14:21Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Robust Model-Free Learning and Control without Prior Knowledge [1.14219428942199]
本稿では,未知の離散時間線形系を頑健に学習し,安定化するモデルフリー制御アルゴリズムを提案する。
コントローラはシステムダイナミクス、障害、ノイズに関する事前の知識を必要としない。
一般化と簡易性にもかかわらず、制御器はクローズドループ性能がよいことを示すシミュレーション結果で結論を下す。
論文 参考訳(メタデータ) (2020-10-01T05:43:33Z) - Certainty Equivalent Perception-Based Control [29.216967322052785]
動的に達成可能な高密度サンプリングスキームの下で,非カーネル回帰に拘束される一様誤差を示す。
これにより、経路追跡のためにクローズドループの回帰器を使用する場合の準最適性に対する有限時間収束率が得られる。
論文 参考訳(メタデータ) (2020-08-27T18:45:40Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Improper Learning for Non-Stochastic Control [78.65807250350755]
逆方向の摂動, 逆方向に選択された凸損失関数, 部分的に観察された状態を含む, 未知の線形力学系を制御することの問題点を考察する。
このパラメトリゼーションにオンライン降下を適用することで、大規模なクローズドループポリシーに対してサブリニア後悔を実現する新しいコントローラが得られる。
我々の境界は、線形力学コントローラの安定化と競合する非確率的制御設定における最初のものである。
論文 参考訳(メタデータ) (2020-01-25T02:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。