論文の概要: Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems
- arxiv url: http://arxiv.org/abs/2003.11227v2
- Date: Wed, 24 Jun 2020 02:00:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 03:05:26.907854
- Title: Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems
- Title(参考訳): 部分観測可能な線形力学系における対数回帰境界
- Authors: Sahin Lale, Kamyar Azizzadenesheli, Babak Hassibi, Anima Anandkumar
- Abstract要約: 部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
- 参考スコア(独自算出の注目度): 91.43582419264763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of system identification and adaptive control in
partially observable linear dynamical systems. Adaptive and closed-loop system
identification is a challenging problem due to correlations introduced in data
collection. In this paper, we present the first model estimation method with
finite-time guarantees in both open and closed-loop system identification.
Deploying this estimation method, we propose adaptive control online learning
(AdaptOn), an efficient reinforcement learning algorithm that adaptively learns
the system dynamics and continuously updates its controller through online
learning steps. AdaptOn estimates the model dynamics by occasionally solving a
linear regression problem through interactions with the environment. Using
policy re-parameterization and the estimated model, AdaptOn constructs
counterfactual loss functions to be used for updating the controller through
online gradient descent. Over time, AdaptOn improves its model estimates and
obtains more accurate gradient updates to improve the controller. We show that
AdaptOn achieves a regret upper bound of $\text{polylog}\left(T\right)$, after
$T$ time steps of agent-environment interaction. To the best of our knowledge,
AdaptOn is the first algorithm that achieves $\text{polylog}\left(T\right)$
regret in adaptive control of unknown partially observable linear dynamical
systems which includes linear quadratic Gaussian (LQG) control.
- Abstract(参考訳): 部分観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
適応型およびクローズドループシステム同定は,データ収集に導入された相関性によって難しい問題である。
本稿では,開ループシステムと閉ループシステムの両方において,有限時間保証付きの最初のモデル推定手法を提案する。
本手法を応用した適応型オンライン学習(AdaptOn)は,システムダイナミクスを適応的に学習し,オンライン学習ステップを通じてコントローラを継続的に更新する,効率的な強化学習アルゴリズムである。
AdaptOnは、環境との相互作用を通じて時折線形回帰問題を解くことによってモデル力学を推定する。
ポリシの再パラメータ化と推定モデルを用いて、AdaptOnは、オンライン勾配降下によってコントローラを更新するために使用される対実損失関数を構築する。
時間が経つにつれて、adaptonはモデル推定を改善し、コントローラを改善するためにより正確な勾配更新を得る。
我々はAdaptOnがエージェント環境相互作用の時間ステップの後に、$\text{polylog}\left(T\right)$の後悔の上限を達成することを示す。
我々の知る限り、AdaptOnは、線形二次ガウス(LQG)制御を含む未知の部分観測可能線形力学系の適応制御において、$\text{polylog}\left(T\right)$ regretを達成する最初のアルゴリズムである。
関連論文リスト
- Learning Residual Model of Model Predictive Control via Random Forests
for Autonomous Driving [13.865293598486492]
自律運転における予測制御(MPC)の大きな問題は、システムモデルの予測と計算の矛盾である。
本稿では、MPC追跡精度をプログラム(QP)問題最適化として再構成し、プログラム(QP)が効果的に解けるようにする。
論文 参考訳(メタデータ) (2023-04-10T03:32:09Z) - Learning Adaptive Control for SE(3) Hamiltonian Dynamics [15.26733033527393]
本稿では, 地上, 空中, 水中などの剛体システムに対する適応的幾何制御法を開発した。
我々は、状態制御軌道データから学習したニューラル常微分方程式ネットワークを用いて、系の力学のハミルトンモデルを学ぶ。
第2段階では、エネルギーベースの観点から外乱補償を施した軌道追従制御器を設計する。
論文 参考訳(メタデータ) (2021-09-21T05:54:28Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Meta Learning MPC using Finite-Dimensional Gaussian Process
Approximations [0.9539495585692008]
制御における学習手法の実践的適用性を阻害する2つの重要な要因は、その計算複雑性と、目に見えない条件に対する限定的な一般化能力である。
本稿では,従来のタスクからのデータを活用するシステムモデルを学習することにより,適応型モデル予測制御のためのメタラーニング手法を提案する。
論文 参考訳(メタデータ) (2020-08-13T15:59:38Z) - Anticipating the Long-Term Effect of Online Learning in Control [75.6527644813815]
AntLerは、学習を予想する学習ベースの制御法則の設計アルゴリズムである。
AntLer は確率 1 と任意に最適な解を近似することを示す。
論文 参考訳(メタデータ) (2020-07-24T07:00:14Z) - Tracking Performance of Online Stochastic Learners [57.14673504239551]
オンラインアルゴリズムは、大規模なバッチにデータを保存したり処理したりすることなく、リアルタイムで更新を計算できるため、大規模な学習環境で人気がある。
一定のステップサイズを使用すると、これらのアルゴリズムはデータやモデル特性などの問題パラメータのドリフトに適応し、適切な精度で最適解を追跡する能力を持つ。
定常仮定に基づく定常状態性能とランダムウォークモデルによるオンライン学習者の追跡性能の関連性を確立する。
論文 参考訳(メタデータ) (2020-04-04T14:16:27Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。