Fugu-MT 論文翻訳(概要): Regularity and stability of feedback relaxed controls

論文の概要: Regularity and stability of feedback relaxed controls

arxiv url: http://arxiv.org/abs/2001.03148v2
Date: Fri, 23 Jul 2021 14:33:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-13 05:24:31.794675
Title: Regularity and stability of feedback relaxed controls
Title（参考訳）: フィードバック緩和制御の規則性と安定性
Authors: Christoph Reisinger, Yufei Zhang
Abstract要約: 本稿では,ロバストなフィードバック制御を設計するための一般探索報酬を用いた緩和制御正則化を提案する。正規化制御問題の値関数とフィードバック制御の両方がパラメータ摂動に関してリプシッツ安定であることを示す。
参考スコア（独自算出の注目度）: 4.48579723067867
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper proposes a relaxed control regularization with general exploration rewards to design robust feedback controls for multi-dimensional continuous-time stochastic exit time problems. We establish that the regularized control problem admits a H\"{o}lder continuous feedback control, and demonstrate that both the value function and the feedback control of the regularized control problem are Lipschitz stable with respect to parameter perturbations. Moreover, we show that a pre-computed feedback relaxed control has a robust performance in a perturbed system, and derive a first-order sensitivity equation for both the value function and optimal feedback relaxed control. These stability results provide a theoretical justification for recent reinforcement learning heuristics that including an exploration reward in the optimization objective leads to more robust decision making. We finally prove first-order monotone convergence of the value functions for relaxed control problems with vanishing exploration parameters, which subsequently enables us to construct the pure exploitation strategy of the original control problem based on the feedback relaxed controls.
Abstract（参考訳）: 本稿では,多次元連続時間確率出口時間問題に対する頑健なフィードバック制御を設計するための一般探索報酬を用いた緩和制御正則化を提案する。我々は、正規化制御問題にH\"{o}lder連続フィードバック制御が認められることを証明し、パラメータ摂動に対する値関数と正規化制御問題のフィードバック制御の両方がリプシッツ安定であることを示す。さらに、事前計算されたフィードバック緩和制御は摂動系において頑健な性能を示し、値関数と最適フィードバック緩和制御の両方に対して1次感度方程式を導出する。これらの安定性は、最適化目標に探索報酬を含む最近の強化学習ヒューリスティックスの理論的正当化をもたらし、より堅牢な意思決定につながる。最終的に、探索パラメータの消失による緩和制御問題に対する値関数の1次単調収束を証明し、フィードバック緩和制御に基づいて元の制御問題の純粋活用戦略を構築することができる。

関連論文リスト

Continuous Policy and Value Iteration for Stochastic Control Problems and Its Convergence [8.65436459753278]
本稿では,制御問題の値関数と最適制御の近似をLangevin型力学を用いて同時に更新する連続ポリシー反復アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-09T18:20:21Z)
Optimal Output Feedback Learning Control for Discrete-Time Linear Quadratic Regulation [3.885549098032255]
動的出力フィードバック学習制御を用いて,未知の離散時間系の線形2次制御問題について検討する。状態フィードバックとは対照的に、LQR問題を解決するための動的出力フィードバック制御の最適性は、状態オブザーバの収束に関する暗黙の条件を必要とする。本稿では、収束性、安定性、最適性性能を保証した一般化された動的出力フィードバック学習制御手法を提案する。
論文参考訳（メタデータ） (2025-03-08T14:02:16Z)
Neural Operator based Reinforcement Learning for Control of first-order PDEs with Spatially-Varying State Delay [9.616306243200269]
遅延に影響を受ける分散パラメータシステムの制御は難しい作業である。 PDEバックステッピング制御戦略と深部強化学習(RL)を組み合わせることで、不安定な一階双曲型PDEを空間的遅延で制御する問題に対処する。シミュレーションでは,従来のバックステッピング知識や解析コントローラを使わずに,ベースラインのSACよりも優れていた。
論文参考訳（メタデータ） (2025-01-30T08:49:08Z)
On the stability of Lipschitz continuous control problems and its application to reinforcement learning [1.534667887016089]
モデルフリー強化学習におけるハミルトン-ヤコビ-ベルマン方程式(HJB)の重要な安定性特性について考察する。リプシッツ連続最適制御問題と粘性解フレームワークにおける古典的最適制御問題とのギャップを埋める。
論文参考訳（メタデータ） (2024-04-20T08:21:25Z)
Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文参考訳（メタデータ） (2024-04-05T17:58:37Z)
Robustness of Energy Landscape Controllers for Spin Rings under Coherent Excitation Transport [0.0]
制御パラメータと制御パラメータの不確実性に対する励振伝達の忠実度を最適化するために設計された制御器の頑健性について検討する。我々は,コヒーレントトランスポートに最適化された量子系が,正確な時間Tでの読み出しに最適化されているか,あるいはTのタイムウインドウで最適化されているかによって,誤差とログ感度の相関が著しく異なることを示した。
論文参考訳（メタデータ） (2023-03-01T00:16:00Z)
Improving the Performance of Robust Control through Event-Triggered Learning [74.57758188038375]
LQR問題における不確実性に直面していつ学習するかを決定するイベントトリガー学習アルゴリズムを提案する。本研究では,ロバストな制御器ベースライン上での性能向上を数値例で示す。
論文参考訳（メタデータ） (2022-07-28T17:36:37Z)
Recurrent Neural Network Controllers Synthesis with Stability Guarantees for Partially Observed Systems [6.234005265019845]
本稿では、不確実な部分観測システムのための動的制御系として、リカレントニューラルネットワーク(RNN)の重要なクラスを考える。本稿では、再パラメータ化空間における安定性条件を反復的に強制する計画的ポリシー勾配法を提案する。数値実験により,本手法は,より少ないサンプルを用いて制御器の安定化を学習し,政策勾配よりも高い最終性能を達成することを示す。
論文参考訳（メタデータ） (2021-09-08T18:21:56Z)
Regret-optimal Estimation and Control [52.28457815067461]
後悔最適推定器と後悔最適制御器は状態空間形式で導出可能であることを示す。非線形力学系に対するモデル予測制御(MPC)と拡張KalmanFilter(EKF)の残差最適類似性を提案する。
論文参考訳（メタデータ） (2021-06-22T23:14:21Z)
Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文参考訳（メタデータ） (2021-02-18T05:11:41Z)
Gaussian Process-based Min-norm Stabilizing Controller for Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文参考訳（メタデータ） (2020-11-14T01:27:32Z)
Certainty Equivalent Perception-Based Control [29.216967322052785]
動的に達成可能な高密度サンプリングスキームの下で,非カーネル回帰に拘束される一様誤差を示す。これにより、経路追跡のためにクローズドループの回帰器を使用する場合の準最適性に対する有限時間収束率が得られる。
論文参考訳（メタデータ） (2020-08-27T18:45:40Z)
Adaptive Control and Regret Minimization in Linear Quadratic Gaussian (LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。 LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文参考訳（メタデータ） (2020-03-12T19:56:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。