論文の概要: Safely Learning Dynamical Systems
- arxiv url: http://arxiv.org/abs/2305.12284v2
- Date: Sat, 8 Jun 2024 17:22:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 05:48:34.423919
- Title: Safely Learning Dynamical Systems
- Title(参考訳): 動的システムの安全な学習
- Authors: Amir Ali Ahmadi, Abraar Chaudhry, Vikas Sindhwani, Stephen Tu,
- Abstract要約: 未知の力学系を学ぶ上での根本的な課題は、安全を維持しながら測定を行うことによってモデルの不確実性を減少させることである。
我々は、軌道の初期化の場所を逐次決定することで、力学系を安全に学習することの意味の数学的定義を定式化する。
トラジェクトリを安全に収集し、初期不確実性集合と整合した非線形力学のモデルに適合させる方法を示す。
- 参考スコア(独自算出の注目度): 13.598953823625472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A fundamental challenge in learning an unknown dynamical system is to reduce model uncertainty by making measurements while maintaining safety. We formulate a mathematical definition of what it means to safely learn a dynamical system by sequentially deciding where to initialize trajectories. The state of the system must stay within a safety region for a horizon of $T$ time steps under the action of all dynamical systems that (i) belong to a given initial uncertainty set, and (ii) are consistent with information gathered so far. First, we consider safely learning a linear dynamical system involving $n$ states. For the case $T=1$, we present an LP-based algorithm that either safely recovers the true dynamics from at most $n$ trajectories, or certifies that safe learning is impossible. For $T=2$, we give an SDP representation of the set of safe initial conditions and show that $\lceil n/2 \rceil$ trajectories generically suffice for safe learning. For $T = \infty$, we provide SDP-representable inner approximations of the set of safe initial conditions and show that one trajectory generically suffices for safe learning. We extend a number of our results to the cases where the initial uncertainty set contains sparse, low-rank, or permutation matrices, or when the system has a control input. Second, we consider safely learning a general class of nonlinear dynamical systems. For the case $T=1$, we give an SOCP-based representation of the set of safe initial conditions. For $T=\infty$, we provide semidefinite representable inner approximations to the set of safe initial conditions. We show how one can safely collect trajectories and fit a polynomial model of the nonlinear dynamics that is consistent with the initial uncertainty set and best agrees with the observations. We also present some extensions to cases where the measurements are noisy or the dynamical system involves disturbances.
- Abstract(参考訳): 未知の力学系を学ぶ上での根本的な課題は、安全を維持しながら測定を行うことによってモデルの不確実性を減少させることである。
我々は、軌道の初期化の場所を逐次決定することで、力学系を安全に学習することの意味の数学的定義を定式化する。
システムの状態は、すべての動的システムの動作の下で、T$タイムステップの地平線の間、安全領域内に留まらなければならない。
i)所定の初期不確実性集合に属し、
(ii) これまでに収集された情報と一致している。
まず、$n$状態を含む線形力学系を安全に学習することを検討する。
例えば、$T=1$の場合、LPベースのアルゴリズムは、少なくとも$n$の軌道から真の力学を安全に回復するか、安全な学習が不可能であることを示す。
T=2$ の場合、安全初期条件の集合の SDP 表現を与え、$\lceil n/2 \rceil$ trajectories が安全学習に十分であることを示す。
T = \infty$ に対して、安全な初期条件の集合の SDP 表現可能な内部近似を提供し、安全な学習のために1つの軌道が総称的に十分であることを示す。
我々は,初期不確実性集合がスパース,ローランク,置換行列を含む場合,あるいはシステムが制御入力を持つ場合に,これらの結果を拡張する。
第二に、非線形力学系の一般的なクラスを安全に学習することを考える。
例えば、$T=1$ の場合、安全初期条件の集合の SOCP ベースの表現を与える。
T=\infty$ に対して、安全な初期条件の集合に対して半定値表現可能な内部近似を与える。
我々は、軌道を安全に収集し、最初の不確実性集合と一致し、観測に最もよく一致する非線形力学の多項式モデルに適合する方法を示す。
また,測定値がうるさい場合や,動的システムに障害が伴う場合にも,いくつかの拡張を提示する。
関連論文リスト
- Near-Optimal Dynamic Regret for Adversarial Linear Mixture MDPs [63.47351876442425]
本研究は,完全情報フィードバックの下で,相変わらずの相変わらずの線形混合MDPについて検討した。
本稿では,占領率に基づく手法と政策に基づく手法の利点を組み合わせた新しいアルゴリズムを提案する。
我々のアルゴリズムは$widetildemathcalO(d sqrtH3 K + sqrtHK(H + barP_K$)$ dynamic regret, ここで$d$は特徴次元である。
論文 参考訳(メタデータ) (2024-11-05T13:55:52Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Learning the Dynamics of Autonomous Linear Systems From Multiple
Trajectories [2.2268031040603447]
自律線形系同定の学習速度と一貫性に関する既存の結果は、1つの長い軌道からの定常状態の挙動の観測に依存している。
定常状態の挙動が容易に観察できない複数の短い軌跡に基づく学習システムダイナミクスのシナリオを考察する。
厳密な安定系の学習速度は$mathcalO(sqrtfraclogNN)$、学習速度は$mathcalO(frac(logN)dsqrとなる。
論文 参考訳(メタデータ) (2022-03-24T01:29:53Z) - Safe Adaptive Learning-based Control for Constrained Linear Quadratic
Regulators with Regret Guarantees [11.627320138064684]
本研究では,2次コスト関数を持つ未知の線形系の状態・動作の安全性制約を考慮した適応制御について検討する。
本アルゴリズムは単一軌道上に実装されており,システム再起動を必要としない。
論文 参考訳(メタデータ) (2021-10-31T05:52:42Z) - Safe Reinforcement Learning with Linear Function Approximation [48.75026009895308]
我々は、状態と行動の未知の線形コスト関数として安全を導入し、それは常に一定の閾値以下でなければならない。
次に,線形関数近似を用いたマルコフ決定過程(MDP)について,SLUCB-QVIおよびRSLUCB-QVIと呼ぶアルゴリズムを提案する。
SLUCB-QVI と RSLUCB-QVI は、Emphno safety violation で $tildemathcalOleft(kappasqrtd3H3Tright)$ regret, almost matching を達成した。
論文 参考訳(メタデータ) (2021-06-11T08:46:57Z) - Safely Learning Dynamical Systems from Short Trajectories [12.184674552836414]
未知の力学系を制御することの学習における根本的な課題は、安全を維持しながら測定を行うことによってモデルの不確実性を減少させることである。
我々は,次の軌道の始点を逐次決定することで,力学系を安全に学習することの意味の数学的定義を定式化する。
本稿では,長さ1の軌跡から真の力学を安全に復元するか,安全な学習が不可能であることを証明した線形プログラミングに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-24T18:06:10Z) - Reinforcement Learning with Fast Stabilization in Linear Dynamical
Systems [91.43582419264763]
未知の安定化線形力学系におけるモデルベース強化学習(RL)について検討する。
本研究では,環境を効果的に探索することで,基盤システムの高速安定化を証明できるアルゴリズムを提案する。
提案アルゴリズムはエージェント環境相互作用の時間ステップで$tildemathcalO(sqrtT)$ regretを達成した。
論文 参考訳(メタデータ) (2020-07-23T23:06:40Z) - Sparse Identification of Nonlinear Dynamical Systems via Reweighted
$\ell_1$-regularized Least Squares [62.997667081978825]
本研究は, 非線形系の制御方程式をノイズ状態測定から復元するための繰り返しスパース規則化回帰法を提案する。
本研究の目的は、状態測定ノイズの存在下での手法の精度とロバスト性を改善することである。
論文 参考訳(メタデータ) (2020-05-27T08:30:15Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z) - Non-asymptotic and Accurate Learning of Nonlinear Dynamical Systems [34.394552166070746]
本研究では,1つの有限軌跡から得られた標本からシステム力学を学習するための勾配に基づくアルゴリズムについて検討する。
既存の作業とは異なり、我々の限界はノイズに敏感で、精度が高く、サンプルの複雑さも小さい。
論文 参考訳(メタデータ) (2020-02-20T02:36:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。