論文の概要: Safely Learning Dynamical Systems
- arxiv url: http://arxiv.org/abs/2305.12284v1
- Date: Sat, 20 May 2023 21:35:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 23:08:26.766995
- Title: Safely Learning Dynamical Systems
- Title(参考訳): 動的システムの安全な学習
- Authors: Amir Ali Ahmadi, Abraar Chaudhry, Vikas Sindhwani, Stephen Tu
- Abstract要約: 我々は,次の軌道の始点を逐次決定することで,力学系を安全に学習することの意味を定式化する。
軌道を安全に収集し、初期不確実性集合と整合した非線形力学のモデルに適合させる方法を示す。
- 参考スコア(独自算出の注目度): 12.184674552836414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A fundamental challenge in learning an unknown dynamical system is to reduce
model uncertainty by making measurements while maintaining safety. In this
work, we formulate a mathematical definition of what it means to safely learn a
dynamical system by sequentially deciding where to initialize the next
trajectory. In our framework, the state of the system is required to stay
within a safety region for a horizon of $T$ time steps under the action of all
dynamical systems that (i) belong to a given initial uncertainty set, and (ii)
are consistent with the information gathered so far.
For our first set of results, we consider the setting of safely learning a
linear dynamical system involving $n$ states. For the case $T=1$, we present a
linear programming-based algorithm that either safely recovers the true
dynamics from at most $n$ trajectories, or certifies that safe learning is
impossible. For $T=2$, we give a semidefinite representation of the set of safe
initial conditions and show that $\lceil n/2 \rceil$ trajectories generically
suffice for safe learning. Finally, for $T = \infty$, we provide semidefinite
representable inner approximations of the set of safe initial conditions and
show that one trajectory generically suffices for safe learning.
Our second set of results concerns the problem of safely learning a general
class of nonlinear dynamical systems. For the case $T=1$, we give a
second-order cone programming based representation of the set of safe initial
conditions. For $T=\infty$, we provide semidefinite representable inner
approximations to the set of safe initial conditions. We show how one can
safely collect trajectories and fit a polynomial model of the nonlinear
dynamics that is consistent with the initial uncertainty set and best agrees
with the observations.
- Abstract(参考訳): 未知力学系を学ぶ上での基本的な課題は、安全性を維持しながら測定を行うことによるモデルの不確かさを減らすことである。
本研究では,次の軌道の始点を逐次決定することで,力学系を安全に学習することの意味を数学的に定義する。
我々のフレームワークでは、システムの状態は安全領域内に留まり、全ての動的システムの動作の下で時間ステップで$T$の地平を保たなければならない。
(i)与えられた初期不確実性集合に属し、
(ii) これまでに収集した情報と一致している。
最初の結果については、$n$状態を含む線形力学系を安全に学習する設定について検討する。
例えば、$T=1$の場合、少なくとも$n$のトラジェクトリから真のダイナミクスを安全に回復するか、安全な学習が不可能であることを示す線形プログラミングベースのアルゴリズムを提案する。
T=2$ の場合、安全な初期条件の集合の半定表現を与え、$\lceil n/2 \rceil$ trajectories が安全学習に十分であることを示す。
最後に、$T = \infty$ に対して、安全な初期条件の集合の半定表現可能な内部近似を提供し、安全な学習のために1つの軌道が一般に十分であることを示す。
第2の結果は、非線形力学系の一般クラスを安全に学習する問題に関するものである。
例えば、$T=1$の場合、安全な初期条件の集合の2階のコーンプログラミングに基づく表現を与える。
t =infty$ に対して、安全な初期条件の集合に対して半定義可能な内部近似を与える。
本研究では, 軌道を安全に収集し, 初期不確実性集合と一致する非線形力学の多項式モデルに適合し, 観測結果と最善の一致を示す。
関連論文リスト
- Near-Optimal Dynamic Regret for Adversarial Linear Mixture MDPs [63.47351876442425]
本研究は,完全情報フィードバックの下で,相変わらずの相変わらずの線形混合MDPについて検討した。
本稿では,占領率に基づく手法と政策に基づく手法の利点を組み合わせた新しいアルゴリズムを提案する。
我々のアルゴリズムは$widetildemathcalO(d sqrtH3 K + sqrtHK(H + barP_K$)$ dynamic regret, ここで$d$は特徴次元である。
論文 参考訳(メタデータ) (2024-11-05T13:55:52Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Learning the Dynamics of Autonomous Linear Systems From Multiple
Trajectories [2.2268031040603447]
自律線形系同定の学習速度と一貫性に関する既存の結果は、1つの長い軌道からの定常状態の挙動の観測に依存している。
定常状態の挙動が容易に観察できない複数の短い軌跡に基づく学習システムダイナミクスのシナリオを考察する。
厳密な安定系の学習速度は$mathcalO(sqrtfraclogNN)$、学習速度は$mathcalO(frac(logN)dsqrとなる。
論文 参考訳(メタデータ) (2022-03-24T01:29:53Z) - Safe Adaptive Learning-based Control for Constrained Linear Quadratic
Regulators with Regret Guarantees [11.627320138064684]
本研究では,2次コスト関数を持つ未知の線形系の状態・動作の安全性制約を考慮した適応制御について検討する。
本アルゴリズムは単一軌道上に実装されており,システム再起動を必要としない。
論文 参考訳(メタデータ) (2021-10-31T05:52:42Z) - Safe Reinforcement Learning with Linear Function Approximation [48.75026009895308]
我々は、状態と行動の未知の線形コスト関数として安全を導入し、それは常に一定の閾値以下でなければならない。
次に,線形関数近似を用いたマルコフ決定過程(MDP)について,SLUCB-QVIおよびRSLUCB-QVIと呼ぶアルゴリズムを提案する。
SLUCB-QVI と RSLUCB-QVI は、Emphno safety violation で $tildemathcalOleft(kappasqrtd3H3Tright)$ regret, almost matching を達成した。
論文 参考訳(メタデータ) (2021-06-11T08:46:57Z) - Safely Learning Dynamical Systems from Short Trajectories [12.184674552836414]
未知の力学系を制御することの学習における根本的な課題は、安全を維持しながら測定を行うことによってモデルの不確実性を減少させることである。
我々は,次の軌道の始点を逐次決定することで,力学系を安全に学習することの意味の数学的定義を定式化する。
本稿では,長さ1の軌跡から真の力学を安全に復元するか,安全な学習が不可能であることを証明した線形プログラミングに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-24T18:06:10Z) - Reinforcement Learning with Fast Stabilization in Linear Dynamical
Systems [91.43582419264763]
未知の安定化線形力学系におけるモデルベース強化学習(RL)について検討する。
本研究では,環境を効果的に探索することで,基盤システムの高速安定化を証明できるアルゴリズムを提案する。
提案アルゴリズムはエージェント環境相互作用の時間ステップで$tildemathcalO(sqrtT)$ regretを達成した。
論文 参考訳(メタデータ) (2020-07-23T23:06:40Z) - Sparse Identification of Nonlinear Dynamical Systems via Reweighted
$\ell_1$-regularized Least Squares [62.997667081978825]
本研究は, 非線形系の制御方程式をノイズ状態測定から復元するための繰り返しスパース規則化回帰法を提案する。
本研究の目的は、状態測定ノイズの存在下での手法の精度とロバスト性を改善することである。
論文 参考訳(メタデータ) (2020-05-27T08:30:15Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z) - Non-asymptotic and Accurate Learning of Nonlinear Dynamical Systems [34.394552166070746]
本研究では,1つの有限軌跡から得られた標本からシステム力学を学習するための勾配に基づくアルゴリズムについて検討する。
既存の作業とは異なり、我々の限界はノイズに敏感で、精度が高く、サンプルの複雑さも小さい。
論文 参考訳(メタデータ) (2020-02-20T02:36:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。