論文の概要: Safely Learning Dynamical Systems
- arxiv url: http://arxiv.org/abs/2305.12284v1
- Date: Sat, 20 May 2023 21:35:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 23:08:26.766995
- Title: Safely Learning Dynamical Systems
- Title(参考訳): 動的システムの安全な学習
- Authors: Amir Ali Ahmadi, Abraar Chaudhry, Vikas Sindhwani, Stephen Tu
- Abstract要約: 我々は,次の軌道の始点を逐次決定することで,力学系を安全に学習することの意味を定式化する。
軌道を安全に収集し、初期不確実性集合と整合した非線形力学のモデルに適合させる方法を示す。
- 参考スコア(独自算出の注目度): 12.184674552836414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A fundamental challenge in learning an unknown dynamical system is to reduce
model uncertainty by making measurements while maintaining safety. In this
work, we formulate a mathematical definition of what it means to safely learn a
dynamical system by sequentially deciding where to initialize the next
trajectory. In our framework, the state of the system is required to stay
within a safety region for a horizon of $T$ time steps under the action of all
dynamical systems that (i) belong to a given initial uncertainty set, and (ii)
are consistent with the information gathered so far.
For our first set of results, we consider the setting of safely learning a
linear dynamical system involving $n$ states. For the case $T=1$, we present a
linear programming-based algorithm that either safely recovers the true
dynamics from at most $n$ trajectories, or certifies that safe learning is
impossible. For $T=2$, we give a semidefinite representation of the set of safe
initial conditions and show that $\lceil n/2 \rceil$ trajectories generically
suffice for safe learning. Finally, for $T = \infty$, we provide semidefinite
representable inner approximations of the set of safe initial conditions and
show that one trajectory generically suffices for safe learning.
Our second set of results concerns the problem of safely learning a general
class of nonlinear dynamical systems. For the case $T=1$, we give a
second-order cone programming based representation of the set of safe initial
conditions. For $T=\infty$, we provide semidefinite representable inner
approximations to the set of safe initial conditions. We show how one can
safely collect trajectories and fit a polynomial model of the nonlinear
dynamics that is consistent with the initial uncertainty set and best agrees
with the observations.
- Abstract(参考訳): 未知力学系を学ぶ上での基本的な課題は、安全性を維持しながら測定を行うことによるモデルの不確かさを減らすことである。
本研究では,次の軌道の始点を逐次決定することで,力学系を安全に学習することの意味を数学的に定義する。
我々のフレームワークでは、システムの状態は安全領域内に留まり、全ての動的システムの動作の下で時間ステップで$T$の地平を保たなければならない。
(i)与えられた初期不確実性集合に属し、
(ii) これまでに収集した情報と一致している。
最初の結果については、$n$状態を含む線形力学系を安全に学習する設定について検討する。
例えば、$T=1$の場合、少なくとも$n$のトラジェクトリから真のダイナミクスを安全に回復するか、安全な学習が不可能であることを示す線形プログラミングベースのアルゴリズムを提案する。
T=2$ の場合、安全な初期条件の集合の半定表現を与え、$\lceil n/2 \rceil$ trajectories が安全学習に十分であることを示す。
最後に、$T = \infty$ に対して、安全な初期条件の集合の半定表現可能な内部近似を提供し、安全な学習のために1つの軌道が一般に十分であることを示す。
第2の結果は、非線形力学系の一般クラスを安全に学習する問題に関するものである。
例えば、$T=1$の場合、安全な初期条件の集合の2階のコーンプログラミングに基づく表現を与える。
t =infty$ に対して、安全な初期条件の集合に対して半定義可能な内部近似を与える。
本研究では, 軌道を安全に収集し, 初期不確実性集合と一致する非線形力学の多項式モデルに適合し, 観測結果と最善の一致を示す。
関連論文リスト
- Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Recursively Feasible Probabilistic Safe Online Learning with Control
Barrier Functions [63.18590014127461]
本稿では,CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
本研究では,ロバストな安全クリティカルコントローラの実現可能性について検討する。
次に、これらの条件を使って、イベントトリガーによるオンラインデータ収集戦略を考案します。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Safe Reinforcement Learning by Imagining the Near Future [37.0376099401243]
本研究は, 短期的に計画することで, 安全でない状態を回避できるような環境に着目する。
我々は、安全でない軌跡を過度に罰するモデルに基づくアルゴリズムを考案し、そのアルゴリズムが特定の仮定の下で安全でない状態を回避できることを保証する。
実験により, 連続制御タスクにおいて, 安全性違反が少なく, 競争力のある報奨を達成できることが実証された。
論文 参考訳(メタデータ) (2022-02-15T23:28:24Z) - Safe Adaptive Learning-based Control for Constrained Linear Quadratic
Regulators with Regret Guarantees [11.627320138064684]
本研究では,2次コスト関数を持つ未知の線形系の状態・動作の安全性制約を考慮した適応制御について検討する。
本アルゴリズムは単一軌道上に実装されており,システム再起動を必要としない。
論文 参考訳(メタデータ) (2021-10-31T05:52:42Z) - Safe Reinforcement Learning with Linear Function Approximation [48.75026009895308]
我々は、状態と行動の未知の線形コスト関数として安全を導入し、それは常に一定の閾値以下でなければならない。
次に,線形関数近似を用いたマルコフ決定過程(MDP)について,SLUCB-QVIおよびRSLUCB-QVIと呼ぶアルゴリズムを提案する。
SLUCB-QVI と RSLUCB-QVI は、Emphno safety violation で $tildemathcalOleft(kappasqrtd3H3Tright)$ regret, almost matching を達成した。
論文 参考訳(メタデータ) (2021-06-11T08:46:57Z) - Safely Learning Dynamical Systems from Short Trajectories [12.184674552836414]
未知の力学系を制御することの学習における根本的な課題は、安全を維持しながら測定を行うことによってモデルの不確実性を減少させることである。
我々は,次の軌道の始点を逐次決定することで,力学系を安全に学習することの意味の数学的定義を定式化する。
本稿では,長さ1の軌跡から真の力学を安全に復元するか,安全な学習が不可能であることを証明した線形プログラミングに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-24T18:06:10Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z) - Learning nonlinear dynamical systems from a single trajectory [102.60042167341956]
我々は、$x_t+1=sigma(Thetastarx_t)+varepsilon_t$という形の非線形力学系を学ぶアルゴリズムを導入する。
最適なサンプル複雑性と線形ランニング時間を持つ単一軌道から重み行列$Thetastar$を復元するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-04-30T10:42:48Z) - Non-asymptotic and Accurate Learning of Nonlinear Dynamical Systems [34.394552166070746]
本研究では,1つの有限軌跡から得られた標本からシステム力学を学習するための勾配に基づくアルゴリズムについて検討する。
既存の作業とは異なり、我々の限界はノイズに敏感で、精度が高く、サンプルの複雑さも小さい。
論文 参考訳(メタデータ) (2020-02-20T02:36:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。