論文の概要: A Distributionally Robust Approach to Regret Optimal Control using the
Wasserstein Distance
- arxiv url: http://arxiv.org/abs/2304.06783v2
- Date: Wed, 16 Aug 2023 15:38:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 17:14:08.447554
- Title: A Distributionally Robust Approach to Regret Optimal Control using the
Wasserstein Distance
- Title(参考訳): 分布的ロバストによるwasserstein距離を用いた後悔の最適制御
- Authors: Feras Al Taha, Shuhao Yan, Eilyan Bitar
- Abstract要約: 因果線形乱れフィードバック制御器は最悪の場合の後悔を最小限に抑えるように設計されていることを示す。
トラクタブル半確定プログラムとしてミニマックス後悔最適制御問題の再構成を導出する。
我々は,ミニマックス・後悔最適制御設計法と分布論的にロバストな最適制御法との比較を行った。
- 参考スコア(独自算出の注目度): 1.8876415010297893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a distributionally robust approach to regret optimal
control of discrete-time linear dynamical systems with quadratic costs subject
to a stochastic additive disturbance on the state process. The underlying
probability distribution of the disturbance process is unknown, but assumed to
lie in a given ball of distributions defined in terms of the type-2 Wasserstein
distance. In this framework, strictly causal linear disturbance feedback
controllers are designed to minimize the worst-case expected regret. The regret
incurred by a controller is defined as the difference between the cost it
incurs in response to a realization of the disturbance process and the cost
incurred by the optimal noncausal controller which has perfect knowledge of the
disturbance process realization at the outset. Building on a well-established
duality theory for optimal transport problems, we derive a reformulation of the
minimax regret optimal control problem as a tractable semidefinite program.
Using the equivalent dual reformulation, we characterize a worst-case
distribution achieving the worst-case expected regret in relation to the
distribution at the center of the Wasserstein ball. We compare the minimax
regret optimal control design method with the distributionally robust optimal
control approach using an illustrative example and numerical experiments.
- Abstract(参考訳): 本稿では,2次コストの離散時間線形力学系の状態過程における確率的加法的乱れを考慮した最適制御に対する分布的ロバストなアプローチを提案する。
乱れ過程の基本的な確率分布は分かっていないが、2型ワッサーシュタイン距離で定義された分布の球にあると仮定される。
このフレームワークでは、厳密な因果的線形外乱フィードバックコントローラは、最悪の場合に期待される後悔を最小限に抑えるように設計されている。
コントローラが生み出した後悔は、外乱プロセスの実現に応答して発生したコストと、外乱プロセス実現の完全な知識を有する最適非外乱コントローラが発生したコストとの差として定義される。
最適輸送問題に対するよく確立された双対性理論に基づいて、トラクタブル半確定プログラムとしてミニマックス後悔最適制御問題の再構成を導出する。
等価な双対再構成を用いて,ワッサースタイン球の中心の分布と関係して,最悪の場合に期待される後悔を達成する最悪の分布を特徴付ける。
minimax regret 最適制御設計法と分布的ロバストな最適制御法を例と数値実験を用いて比較した。
関連論文リスト
- Constrained Reinforcement Learning using Distributional Representation for Trustworthy Quadrotor UAV Tracking Control [2.325021848829375]
本研究では, 未知の空力効果に対する分散強化学習障害推定器を統合した新しいトラジェクトリトラッカーを提案する。
提案手法は, 空気力学効果の真値と推定値の不確かさを正確に同定する。
本システムは,最近の技術と比較して,累積追尾誤差を少なくとも70%改善することを示した。
論文 参考訳(メタデータ) (2023-02-22T23:15:56Z) - Stochastic optimal well control in subsurface reservoirs using
reinforcement learning [0.0]
本稿では,パラメータの不確実性分布の最適制御を行うためのモデルフリー強化学習フレームワークのケーススタディを提案する。
原理的には、RLアルゴリズムは数値報酬信号の最大化のために最適な行動ポリシーを学習することができる。
提案手法は,2つの水面流動試験ケースに対して,2つの最先端RLアルゴリズム,PPO,A2Cを用いて数値計算を行った。
論文 参考訳(メタデータ) (2022-07-07T17:34:23Z) - Wasserstein Distributionally Robust Estimation in High Dimensions:
Performance Analysis and Optimal Hyperparameter Tuning [0.0]
雑音線形測定から未知パラメータを推定するための分布的ロバストな推定フレームワークを提案する。
このような推定器の2乗誤差性能を解析する作業に着目する。
凸凹最適化問題の解法として2乗誤差を復元できることを示す。
論文 参考訳(メタデータ) (2022-06-27T13:02:59Z) - Regret-optimal Estimation and Control [52.28457815067461]
後悔最適推定器と後悔最適制御器は状態空間形式で導出可能であることを示す。
非線形力学系に対するモデル予測制御(MPC)と拡張KalmanFilter(EKF)の残差最適類似性を提案する。
論文 参考訳(メタデータ) (2021-06-22T23:14:21Z) - Regret-Optimal Filtering [57.51328978669528]
後悔最適化レンズによる線形状態空間モデルにおけるフィルタの問題を検討する。
我々は, 透視推定器の誤差エネルギー推定における後悔の概念に基づいて, フィルタ設計のための新しい基準を定式化する。
3つのリッキー方程式と1つのリャプノフ方程式を解くことで、後悔と最適推定が容易に実現できることを示す。
論文 参考訳(メタデータ) (2021-01-25T19:06:52Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Reinforcement Learning for Low-Thrust Trajectory Design of
Interplanetary Missions [77.34726150561087]
本稿では, 惑星間軌道のロバスト設計における強化学習の適用について検討する。
最先端アルゴリズムのオープンソース実装が採用されている。
その結果得られた誘導制御ネットワークは、堅牢な名目的軌道と関連する閉ループ誘導法の両方を提供する。
論文 参考訳(メタデータ) (2020-08-19T15:22:15Z) - Online Stochastic Convex Optimization: Wasserstein Distance Variation [15.313864176694832]
滑らかな凸関数の期待値の最小値を追跡するためのオンライン近勾配法について検討する。
システムや制御文献にインスパイアされた推定・追跡誤差の概念を再考する。
我々は、強い凸性、勾配のリプシッツ性、確率分布のドリフトに対する境界を与える。
論文 参考訳(メタデータ) (2020-06-02T05:23:22Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Improper Learning for Non-Stochastic Control [78.65807250350755]
逆方向の摂動, 逆方向に選択された凸損失関数, 部分的に観察された状態を含む, 未知の線形力学系を制御することの問題点を考察する。
このパラメトリゼーションにオンライン降下を適用することで、大規模なクローズドループポリシーに対してサブリニア後悔を実現する新しいコントローラが得られる。
我々の境界は、線形力学コントローラの安定化と競合する非確率的制御設定における最初のものである。
論文 参考訳(メタデータ) (2020-01-25T02:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。