論文の概要: Information Theoretic Regret Bounds for Online Nonlinear Control
- arxiv url: http://arxiv.org/abs/2006.12466v1
- Date: Mon, 22 Jun 2020 17:46:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 05:48:34.421122
- Title: Information Theoretic Regret Bounds for Online Nonlinear Control
- Title(参考訳): オンライン非線形制御のための情報理論レギュレット境界
- Authors: Sham Kakade, Akshay Krishnamurthy, Kendall Lowrey, Motoya Ohnishi, Wen
Sun
- Abstract要約: 未知の非線形力学系における逐次制御の問題について検討する。
この枠組みは、離散的かつ連続的な制御入力と非滑らかで微分不可能な力学を許容する一般的な設定を与える。
実験により, 非線形制御タスクへの応用を実証し, モデル力学の学習における探索の利点を実証する。
- 参考スコア(独自算出の注目度): 35.534829914047336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work studies the problem of sequential control in an unknown, nonlinear
dynamical system, where we model the underlying system dynamics as an unknown
function in a known Reproducing Kernel Hilbert Space. This framework yields a
general setting that permits discrete and continuous control inputs as well as
non-smooth, non-differentiable dynamics. Our main result, the Lower
Confidence-based Continuous Control ($LC^3$) algorithm, enjoys a near-optimal
$O(\sqrt{T})$ regret bound against the optimal controller in episodic settings,
where $T$ is the number of episodes. The bound has no explicit dependence on
dimension of the system dynamics, which could be infinite, but instead only
depends on information theoretic quantities. We empirically show its
application to a number of nonlinear control tasks and demonstrate the benefit
of exploration for learning model dynamics.
- Abstract(参考訳): 本研究では,未知の非線形力学系における逐次制御の問題について検討し,その基礎となる系力学を未知の関数としてモデル化する。
この枠組みは離散的かつ連続的な制御入力と非滑らかで微分不可能な力学を許容する一般的な設定を与える。
我々の主な成果であるLow Confidence-based Continuous Control(LC^3$)アルゴリズムは、エピソード数として$T$の最適コントローラに対してほぼ最適の$O(\sqrt{T})$の後悔を楽しむ。
境界は系の力学の次元に明示的に依存せず、それは無限であり得るが、代わりに情報理論量にのみ依存する。
我々は,非線形制御タスクの多くにその応用を実証し,モデルダイナミクスの学習における探索の利点を実証する。
関連論文リスト
- Iterative Learning Control of Fast, Nonlinear, Oscillatory Dynamics (Preprint) [0.0]
非線形でカオス的で、しばしばアクティブな制御方式では速すぎる。
そこで我々は,反復的,軌道最適化,パラメータ調整による代替能動制御システムを開発した。
特定の要件を満たす限り、コントローラは情報不足や制御不能なパラメータに対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-05-30T13:27:17Z) - Learning Control-Oriented Dynamical Structure from Data [25.316358215670274]
一般非線形制御アフィン系に対する状態依存非線形トラッキングコントローラの定式化について論じる。
安定軌跡追跡における学習版の有効性を実証的に実証した。
論文 参考訳(メタデータ) (2023-02-06T02:01:38Z) - LQGNet: Hybrid Model-Based and Data-Driven Linear Quadratic Stochastic
Control [24.413595920205907]
二次制御は、不確実性のある環境で、力学系のための最適な制御信号を見つけることを扱う。
LQGNetは、部分的に知られた動的操作のためにデータを活用するコントローラである。
LQGNetは、ミスマッチしたSSモデルを克服することで、古典的な制御よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-23T17:59:51Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Robust Online Control with Model Misspecification [96.23493624553998]
本研究では,未知の非線形力学系のモデル不特定性を考慮したオンライン制御について検討する。
本研究は, 線形近似からの偏差を許容できる程度に測定できるロバスト性に着目した。
論文 参考訳(メタデータ) (2021-07-16T07:04:35Z) - Learning the Linear Quadratic Regulator from Nonlinear Observations [135.66883119468707]
我々は、LQR with Rich Observations(RichLQR)と呼ばれる連続制御のための新しい問題設定を導入する。
本設定では, 線形力学と二次的コストを有する低次元連続潜伏状態によって環境を要約する。
本結果は,システムモデルと一般関数近似における未知の非線形性を持つ連続制御のための,最初の証明可能なサンプル複雑性保証である。
論文 参考訳(メタデータ) (2020-10-08T07:02:47Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Improper Learning for Non-Stochastic Control [78.65807250350755]
逆方向の摂動, 逆方向に選択された凸損失関数, 部分的に観察された状態を含む, 未知の線形力学系を制御することの問題点を考察する。
このパラメトリゼーションにオンライン降下を適用することで、大規模なクローズドループポリシーに対してサブリニア後悔を実現する新しいコントローラが得られる。
我々の境界は、線形力学コントローラの安定化と競合する非確率的制御設定における最初のものである。
論文 参考訳(メタデータ) (2020-01-25T02:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。