Fugu-MT 論文翻訳(概要): Non-asymptotic and Accurate Learning of Nonlinear Dynamical Systems

論文の概要: Non-asymptotic and Accurate Learning of Nonlinear Dynamical Systems

arxiv url: http://arxiv.org/abs/2002.08538v2
Date: Wed, 17 Nov 2021 21:45:38 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-30 07:33:39.677506
Title: Non-asymptotic and Accurate Learning of Nonlinear Dynamical Systems
Title（参考訳）: 非線形力学系の非漸近的高精度学習
Authors: Yahya Sattar and Samet Oymak
Abstract要約: 本研究では,1つの有限軌跡から得られた標本からシステム力学を学習するための勾配に基づくアルゴリズムについて検討する。既存の作業とは異なり、我々の限界はノイズに敏感で、精度が高く、サンプルの複雑さも小さい。
参考スコア（独自算出の注目度）: 34.394552166070746
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider the problem of learning stabilizable systems governed by nonlinear state equation $h_{t+1}=\phi(h_t,u_t;\theta)+w_t$. Here $\theta$ is the unknown system dynamics, $h_t $ is the state, $u_t$ is the input and $w_t$ is the additive noise vector. We study gradient based algorithms to learn the system dynamics $\theta$ from samples obtained from a single finite trajectory. If the system is run by a stabilizing input policy, we show that temporally-dependent samples can be approximated by i.i.d. samples via a truncation argument by using mixing-time arguments. We then develop new guarantees for the uniform convergence of the gradients of empirical loss. Unlike existing work, our bounds are noise sensitive which allows for learning ground-truth dynamics with high accuracy and small sample complexity. Together, our results facilitate efficient learning of the general nonlinear system under stabilizing policy. We specialize our guarantees to entry-wise nonlinear activations and verify our theory in various numerical experiments
Abstract（参考訳）: 非線形状態方程式 $h_{t+1}=\phi(h_t,u_t;\theta)+w_t$ で制御される学習安定化系の問題を考える。ここで$\theta$は未知のシステムダイナミクス、$h_t $は状態、$u_t$は入力、$w_t$は付加ノイズベクトルである。 1つの有限軌道から得られたサンプルからシステムダイナミクスを学ぶために、勾配に基づくアルゴリズムを研究した。システムが安定化された入力ポリシによって実行される場合、混合時間引数を用いて、時間依存のサンプルをトランケーション引数を介して近似することができることを示す。次に,経験的損失の勾配の均一収束に対する新たな保証を考案する。既存の作業とは異なり、我々の限界はノイズに敏感で、精度が高く、サンプルの複雑さも小さい。その結果,安定化政策下での一般非線形システムの効率的な学習が促進された。我々はエントリワイズ非線形活性化の保証を専門とし、様々な数値実験で理論を検証する。

関連論文リスト

Robustness of Nonlinear Representation Learning [60.15898117103069]
本研究では,教師なし表現学習の問題を,わずかに不特定な環境で研究する。混合は線形変換と小さな誤差で識別可能であることを示す。これらの結果は、実世界のデータに対する教師なし表現学習における識別可能性向上へのステップである。
論文参考訳（メタデータ） (2025-03-19T15:57:03Z)
The Sample Complexity of Online Reinforcement Learning: A Multi-model Perspective [55.15192437680943]
連続状態と行動空間を持つ非線形力学系に対するオンライン強化学習のサンプル複雑性について検討した。我々のアルゴリズムは、その単純さ、事前知識を組み込む能力、そして良心的な過渡的行動のために、実際に有用である可能性が高い。
論文参考訳（メタデータ） (2025-01-27T10:01:28Z)
Sample Efficient Reinforcement Learning with Partial Dynamics Knowledge [0.704590071265998]
オンラインQ-ラーニング手法のサンプル複雑性について,動的知識が利用可能であったり,効率的に学習できたりした場合に検討する。我々は,$f$の完全知識の下で,$tildemathcalO(textPoly(H)sqrtSAT)$ regretを達成する楽観的なQ-ラーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-12-19T19:53:58Z)
Learning the Dynamics of Autonomous Linear Systems From Multiple Trajectories [2.2268031040603447]
自律線形系同定の学習速度と一貫性に関する既存の結果は、1つの長い軌道からの定常状態の挙動の観測に依存している。定常状態の挙動が容易に観察できない複数の短い軌跡に基づく学習システムダイナミクスのシナリオを考察する。厳密な安定系の学習速度は$mathcalO(sqrtfraclogNN)$、学習速度は$mathcalO(frac(logN)dsqrとなる。
論文参考訳（メタデータ） (2022-03-24T01:29:53Z)
Approximate Function Evaluation via Multi-Armed Bandits [51.146684847667125]
既知の滑らかな関数 $f$ の値を未知の点 $boldsymbolmu in mathbbRn$ で推定する問題について検討する。我々は、各座標の重要性に応じてサンプルを学習するインスタンス適応アルゴリズムを設計し、少なくとも1-delta$の確率で$epsilon$の正確な推定値である$f(boldsymbolmu)$を返す。
論文参考訳（メタデータ） (2022-03-18T18:50:52Z)
An end-to-end deep learning approach for extracting stochastic dynamical systems with $\alpha$-stable L\'evy noise [5.815325960286111]
本研究では,ランダムなペアワイズデータのみから,$alpha$-stable Levyノイズによって駆動される力学系を同定する。我々の革新は、(1)レヴィ誘導雑音のドリフト項と拡散項の両方を全ての値に対して$alpha$で学習するためのディープラーニングアプローチを設計すること、(2)小さな雑音強度を制限せずに複雑な乗法ノイズを学習すること、(3)システム同定のためのエンドツーエンドの完全なフレームワークを提案することである。
論文参考訳（メタデータ） (2022-01-31T10:51:25Z)
Near-optimal Offline and Streaming Algorithms for Learning Non-Linear Dynamical Systems [45.17023170054112]
X_t+1 = phi(A* X_t) + eta_t$, where $eta_t$ is unbiased noise and $phi : mathbbR to mathbbR$ is a known link function that certain em expansivity properties。
論文参考訳（メタデータ） (2021-05-24T22:14:26Z)
Reinforcement Learning with Fast Stabilization in Linear Dynamical Systems [91.43582419264763]
未知の安定化線形力学系におけるモデルベース強化学習(RL)について検討する。本研究では,環境を効果的に探索することで,基盤システムの高速安定化を証明できるアルゴリズムを提案する。提案アルゴリズムはエージェント環境相互作用の時間ステップで$tildemathcalO(sqrtT)$ regretを達成した。
論文参考訳（メタデータ） (2020-07-23T23:06:40Z)
Sparse Identification of Nonlinear Dynamical Systems via Reweighted $\ell_1$-regularized Least Squares [62.997667081978825]
本研究は, 非線形系の制御方程式をノイズ状態測定から復元するための繰り返しスパース規則化回帰法を提案する。本研究の目的は、状態測定ノイズの存在下での手法の精度とロバスト性を改善することである。
論文参考訳（メタデータ） (2020-05-27T08:30:15Z)
Learning nonlinear dynamical systems from a single trajectory [102.60042167341956]
我々は、$x_t+1=sigma(Thetastarx_t)+varepsilon_t$という形の非線形力学系を学ぶアルゴリズムを導入する。最適なサンプル複雑性と線形ランニング時間を持つ単一軌道から重み行列$Thetastar$を復元するアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-04-30T10:42:48Z)
Naive Exploration is Optimal for Online LQR [49.681825576239355]
最適後悔尺度は$widetildeTheta(sqrtd_mathbfu2 d_mathbfx T)$で、$T$は時間ステップの数、$d_mathbfu$は入力空間の次元、$d_mathbfx$はシステム状態の次元である。我々の下界は、かつての$mathrmpoly(logT)$-regretアルゴリズムの可能性を排除する。
論文参考訳（メタデータ） (2020-01-27T03:44:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。