論文の概要: Implications of Regret on Stability of Linear Dynamical Systems
- arxiv url: http://arxiv.org/abs/2211.07411v1
- Date: Mon, 14 Nov 2022 14:39:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 21:39:28.506375
- Title: Implications of Regret on Stability of Linear Dynamical Systems
- Title(参考訳): 線形力学系の安定性に対する後悔の意義
- Authors: Aren Karapetyan, Anastasios Tsiamis, Efe C. Balta, Andrea Iannelli,
John Lygeros
- Abstract要約: 本研究では, 線形状態フィードバックポリシや線形システムに対して, 線形後悔は時間的変化と時間的不変性の両方において安定性を示すことを示す。
また,入力境界状態(BIBS)の安定性と状態遷移行列の総和性は線形後悔を示唆することを示した。
- 参考スコア(独自算出の注目度): 5.6435410094272696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The setting of an agent making decisions under uncertainty and under dynamic
constraints is common for the fields of optimal control, reinforcement learning
and recently also for online learning. In the online learning setting, the
quality of an agent's decision is often quantified by the concept of regret,
comparing the performance of the chosen decisions to the best possible ones in
hindsight. While regret is a useful performance measure, when dynamical systems
are concerned, it is important to also assess the stability of the closed-loop
system for a chosen policy. In this work, we show that for linear state
feedback policies and linear systems subject to adversarial disturbances,
linear regret implies asymptotic stability in both time-varying and
time-invariant settings. Conversely, we also show that bounded input bounded
state (BIBS) stability and summability of the state transition matrices imply
linear regret.
- Abstract(参考訳): 不確実性と動的制約の下で決定を行うエージェントの設定は、最適制御、強化学習、そして最近オンライン学習の分野でも一般的である。
オンライン学習環境において、エージェントの判断の質は、しばしば後悔の概念によって定量化され、選択された決定のパフォーマンスを後から見て最良の決定と比較する。
後悔はパフォーマンスの指標として有用であるが,力学系に関しては,選択した政策に対する閉ループシステムの安定性も評価することが重要である。
本研究では, 線形状態フィードバックポリシと線形システムに対して, 線形後悔は時間変化と時間不変の両条件において漸近安定性を示すことを示す。
逆に、有界入力有界状態 (bibs) の安定性と状態遷移行列の和は線形後悔を意味することを示した。
関連論文リスト
- Stability Bounds for Learning-Based Adaptive Control of Discrete-Time
Multi-Dimensional Stochastic Linear Systems with Input Constraints [3.8004168340068336]
本研究では,有界制御入力制約と非有界障害を有する離散時間多次元システムの適応安定化問題について考察する。
本稿では,オンラインパラメータ推定と飽和線形制御を組み合わせた等価制御手法を提案する。
論文 参考訳(メタデータ) (2023-04-02T16:38:13Z) - Best of Both Worlds in Online Control: Competitive Ratio and Policy
Regret [61.59646565655169]
我々は,最近提案されたオンライン制御アルゴリズムが,両世界のベストを達成していることを示す。
線形力学系が未知の場合には, 準線形後悔対最適競争政策が達成可能であると結論づける。
論文 参考訳(メタデータ) (2022-11-21T07:29:08Z) - Regret Analysis of Certainty Equivalence Policies in Continuous-Time
Linear-Quadratic Systems [0.0]
本研究では,線形四元数系の正準モデル制御のためのユビキタス強化学習ポリシーの理論的性能保証について検討する。
我々は、時間的後悔境界の平方根を確立し、ランダム化された確実性等価ポリシーが一つの状態軌跡から高速に最適な制御行動を学ぶことを示す。
論文 参考訳(メタデータ) (2022-06-09T11:47:36Z) - KCRL: Krasovskii-Constrained Reinforcement Learning with Guaranteed
Stability in Nonlinear Dynamical Systems [66.9461097311667]
形式的安定性を保証するモデルに基づく強化学習フレームワークを提案する。
提案手法は,特徴表現を用いて信頼区間までシステムダイナミクスを学習する。
我々は、KCRLが、基礎となる未知のシステムとの有限数の相互作用において安定化ポリシーを学ぶことが保証されていることを示す。
論文 参考訳(メタデータ) (2022-06-03T17:27:04Z) - Online Control of Unknown Time-Varying Dynamical Systems [48.75672260851758]
非確率制御モデルにおいて、未知のダイナミクスを持つ時間変化線形系のオンライン制御について検討する。
本研究では,反省行動 (SLS) や反省反応 (Youla) , 線形フィードバック政策 (線形フィードバックポリシー) といった一般的な政策のクラスに関して, 後悔すべき境界について検討する。
論文 参考訳(メタデータ) (2022-02-16T06:57:14Z) - Bayesian Algorithms Learn to Stabilize Unknown Continuous-Time Systems [0.0]
線形力学系は、不確実な力学を持つ植物の学習に基づく制御のための標準モデルである。
この目的のための信頼性の高い安定化手順は、不安定なデータから有効に学習し、有限時間でシステムを安定化させることができない。
本研究では,未知の連続時間線形系を安定化する新しい学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-30T15:31:35Z) - Reinforcement Learning Policies in Continuous-Time Linear Systems [0.0]
パラメータ推定を慎重にランダムにすることで、最適行動の学習を迅速に行うオンラインポリシーを提案する。
非接触系の力学に対する鋭い安定性を証明し、準最適動作による無限小の後悔を厳密に特定する。
我々の分析は、継続的強化学習における基本的な課題に光を当て、同様の問題に対する有用な基礎となることを示唆している。
論文 参考訳(メタデータ) (2021-09-16T00:08:50Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。