論文の概要: Learning Expected Reward for Switched Linear Control Systems: A
Non-Asymptotic View
- arxiv url: http://arxiv.org/abs/2006.08105v1
- Date: Mon, 15 Jun 2020 03:13:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 05:19:47.070893
- Title: Learning Expected Reward for Switched Linear Control Systems: A
Non-Asymptotic View
- Title(参考訳): 線形制御系のリワードを期待する学習:非漸近的視点
- Authors: Muhammad Abdullah Naeem, Miroslav Pajic
- Abstract要約: スイッチング線形力学系に対する不変エルゴード測度の存在を示す。
我々は、期待される報酬を学習するために、非漸近的境界を導出する。
- 参考スコア(独自算出の注目度): 10.051309746913512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we show existence of invariant ergodic measure for switched
linear dynamical systems (SLDSs) under a norm-stability assumption of system
dynamics in some unbounded subset of $\mathbb{R}^{n}$. Consequently, given a
stationary Markov control policy, we derive non-asymptotic bounds for learning
expected reward (w.r.t the invariant ergodic measure our closed-loop system
mixes to) from time-averages using Birkhoff's Ergodic Theorem. The presented
results provide a foundation for deriving non-asymptotic analysis for average
reward-based optimal control of SLDSs. Finally, we illustrate the presented
theoretical results in two case-studies.
- Abstract(参考訳): 本研究では,$\mathbb{r}^{n}$ の非有界部分集合における系力学のノルム安定な仮定の下で,スイッチト線形力学系 (slds) に対する不変エルゴード測度の存在を示す。
したがって、定常マルコフ制御ポリシーが与えられた場合、バーホフのエルゴディック定理を用いた時間的経験から期待される報酬(w.r.t invariant ergodic measure our closed-loop system mixes)を学習するための非漸近的境界を導出する。
以上の結果から,SLDSの平均報酬に基づく最適制御のための非漸近解析を導出する基盤を提供する。
最後に、提示された理論結果を2つのケーススタディで説明する。
関連論文リスト
- Stochastic Approximation with Unbounded Markovian Noise: A General-Purpose Theorem [7.443139252028032]
非有界な状態空間と報酬関数を持つ平均逆強化学習を考える。
近年の研究では、この問題をアクター批判の枠組みで研究している。
線形関数近似を用いた時間差分学習(TD)について検討した。
論文 参考訳(メタデータ) (2024-10-29T03:40:53Z) - Method-of-Moments Inference for GLMs and Doubly Robust Functionals under Proportional Asymptotics [30.324051162373973]
高次元一般化線形モデル(GLM)における回帰係数と信号対雑音比の推定について考察する。
我々は、推論対象の一貫性と漸近的正規性(CAN)推定を導出する。
理論的結果を数値実験と既存文献との比較で補完する。
論文 参考訳(メタデータ) (2024-08-12T12:43:30Z) - A finite-sample generalization bound for stable LPV systems [0.0]
安定な連続時間線形パラメータ可変(LPV)システムに対するPACバウンダリを導出する。
我々の境界は、選択されたLPV系のH2ノルムに依存するが、信号が考慮される時間間隔に依存しない。
論文 参考訳(メタデータ) (2024-05-16T12:42:36Z) - BayesDAG: Gradient-Based Posterior Inference for Causal Discovery [30.027520859604955]
マルコフ・チェイン・モンテカルロと変分推論を組み合わせたスケーラブルな因果探索フレームワークを提案する。
本手法では,DAG正則化を必要とせず,直接後部からDAGを採取する。
我々は、置換に基づくDAG学習に新しい等価性をもたらし、置換によって定義された緩和された推定器を使用する可能性を開く。
論文 参考訳(メタデータ) (2023-07-26T02:34:13Z) - Identifiability and Asymptotics in Learning Homogeneous Linear ODE Systems from Discrete Observations [114.17826109037048]
通常の微分方程式(ODE)は、機械学習において最近多くの注目を集めている。
理論的な側面、例えば、統計的推定の識別可能性と特性は、いまだに不明である。
本稿では,1つの軌道からサンプリングされた等間隔の誤差のない観測結果から,同次線形ODE系の同定可能性について十分な条件を導出する。
論文 参考訳(メタデータ) (2022-10-12T06:46:38Z) - Structure-Preserving Learning Using Gaussian Processes and Variational
Integrators [62.31425348954686]
本稿では,機械系の古典力学に対する変分積分器と,ガウス過程の回帰による残留力学の学習の組み合わせを提案する。
我々は、既知のキネマティック制約を持つシステムへのアプローチを拡張し、予測の不確実性に関する公式な境界を提供する。
論文 参考訳(メタデータ) (2021-12-10T11:09:29Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Efficient Semi-Implicit Variational Inference [65.07058307271329]
効率的でスケーラブルな半単純外挿 (SIVI) を提案する。
本手法はSIVIの証拠を低勾配値の厳密な推測にマッピングする。
論文 参考訳(メタデータ) (2021-01-15T11:39:09Z) - Neural Stochastic Contraction Metrics for Learning-based Control and
Estimation [13.751135823626493]
NSCMフレームワークにより、自律エージェントは最適な安定制御と推定ポリシーをリアルタイムで近似することができる。
これは、状態依存リカティ方程式、反復LQR、EKF、神経収縮など、既存の非線形制御と推定技術より優れている。
論文 参考訳(メタデータ) (2020-11-06T03:04:42Z) - A maximum-entropy approach to off-policy evaluation in average-reward
MDPs [54.967872716145656]
この研究は、無限水平非カウントマルコフ決定過程(MDPs)における関数近似を伴うオフ・ポリティ・アセスメント(OPE)に焦点を当てる。
提案手法は,第1の有限サンプル OPE 誤差境界であり,既存の結果がエピソードおよびディスカウントケースを超えて拡張される。
この結果から,教師あり学習における最大エントロピー的アプローチを並列化して,十分な統計値を持つ指数関数型家族分布が得られた。
論文 参考訳(メタデータ) (2020-06-17T18:13:37Z) - On dissipative symplectic integration with applications to
gradient-based optimization [77.34726150561087]
本稿では,離散化を体系的に実現する幾何学的枠組みを提案する。
我々は、シンプレクティックな非保守的、特に散逸的なハミルトン系への一般化が、制御された誤差まで収束率を維持することができることを示す。
論文 参考訳(メタデータ) (2020-04-15T00:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。