論文の概要: Regularity and stability of feedback relaxed controls
- arxiv url: http://arxiv.org/abs/2001.03148v2
- Date: Fri, 23 Jul 2021 14:33:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 05:24:31.794675
- Title: Regularity and stability of feedback relaxed controls
- Title(参考訳): フィードバック緩和制御の規則性と安定性
- Authors: Christoph Reisinger, Yufei Zhang
- Abstract要約: 本稿では,ロバストなフィードバック制御を設計するための一般探索報酬を用いた緩和制御正則化を提案する。
正規化制御問題の値関数とフィードバック制御の両方がパラメータ摂動に関してリプシッツ安定であることを示す。
- 参考スコア(独自算出の注目度): 4.48579723067867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a relaxed control regularization with general exploration
rewards to design robust feedback controls for multi-dimensional
continuous-time stochastic exit time problems. We establish that the
regularized control problem admits a H\"{o}lder continuous feedback control,
and demonstrate that both the value function and the feedback control of the
regularized control problem are Lipschitz stable with respect to parameter
perturbations. Moreover, we show that a pre-computed feedback relaxed control
has a robust performance in a perturbed system, and derive a first-order
sensitivity equation for both the value function and optimal feedback relaxed
control. These stability results provide a theoretical justification for recent
reinforcement learning heuristics that including an exploration reward in the
optimization objective leads to more robust decision making. We finally prove
first-order monotone convergence of the value functions for relaxed control
problems with vanishing exploration parameters, which subsequently enables us
to construct the pure exploitation strategy of the original control problem
based on the feedback relaxed controls.
- Abstract(参考訳): 本稿では,多次元連続時間確率出口時間問題に対する頑健なフィードバック制御を設計するための一般探索報酬を用いた緩和制御正則化を提案する。
我々は、正規化制御問題にH\"{o}lder連続フィードバック制御が認められることを証明し、パラメータ摂動に対する値関数と正規化制御問題のフィードバック制御の両方がリプシッツ安定であることを示す。
さらに、事前計算されたフィードバック緩和制御は摂動系において頑健な性能を示し、値関数と最適フィードバック緩和制御の両方に対して1次感度方程式を導出する。
これらの安定性は、最適化目標に探索報酬を含む最近の強化学習ヒューリスティックスの理論的正当化をもたらし、より堅牢な意思決定につながる。
最終的に、探索パラメータの消失による緩和制御問題に対する値関数の1次単調収束を証明し、フィードバック緩和制御に基づいて元の制御問題の純粋活用戦略を構築することができる。
関連論文リスト
- On the stability of Lipschitz continuous control problems and its application to reinforcement learning [1.534667887016089]
モデルフリー強化学習におけるハミルトン-ヤコビ-ベルマン方程式(HJB)の重要な安定性特性について考察する。
リプシッツ連続最適制御問題と粘性解フレームワークにおける古典的最適制御問題とのギャップを埋める。
論文 参考訳(メタデータ) (2024-04-20T08:21:25Z) - Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Robustness of Energy Landscape Controllers for Spin Rings under Coherent
Excitation Transport [0.0]
制御パラメータと制御パラメータの不確実性に対する励振伝達の忠実度を最適化するために設計された制御器の頑健性について検討する。
我々は,コヒーレントトランスポートに最適化された量子系が,正確な時間Tでの読み出しに最適化されているか,あるいはTのタイムウインドウで最適化されているかによって,誤差とログ感度の相関が著しく異なることを示した。
論文 参考訳(メタデータ) (2023-03-01T00:16:00Z) - Improving the Performance of Robust Control through Event-Triggered
Learning [74.57758188038375]
LQR問題における不確実性に直面していつ学習するかを決定するイベントトリガー学習アルゴリズムを提案する。
本研究では,ロバストな制御器ベースライン上での性能向上を数値例で示す。
論文 参考訳(メタデータ) (2022-07-28T17:36:37Z) - Recurrent Neural Network Controllers Synthesis with Stability Guarantees
for Partially Observed Systems [6.234005265019845]
本稿では、不確実な部分観測システムのための動的制御系として、リカレントニューラルネットワーク(RNN)の重要なクラスを考える。
本稿では、再パラメータ化空間における安定性条件を反復的に強制する計画的ポリシー勾配法を提案する。
数値実験により,本手法は,より少ないサンプルを用いて制御器の安定化を学習し,政策勾配よりも高い最終性能を達成することを示す。
論文 参考訳(メタデータ) (2021-09-08T18:21:56Z) - Regret-optimal Estimation and Control [52.28457815067461]
後悔最適推定器と後悔最適制御器は状態空間形式で導出可能であることを示す。
非線形力学系に対するモデル予測制御(MPC)と拡張KalmanFilter(EKF)の残差最適類似性を提案する。
論文 参考訳(メタデータ) (2021-06-22T23:14:21Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Certainty Equivalent Perception-Based Control [29.216967322052785]
動的に達成可能な高密度サンプリングスキームの下で,非カーネル回帰に拘束される一様誤差を示す。
これにより、経路追跡のためにクローズドループの回帰器を使用する場合の準最適性に対する有限時間収束率が得られる。
論文 参考訳(メタデータ) (2020-08-27T18:45:40Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。