論文の概要: Online Learning for Supervisory Switching Control
- arxiv url: http://arxiv.org/abs/2603.14762v1
- Date: Mon, 16 Mar 2026 02:52:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:36.011592
- Title: Online Learning for Supervisory Switching Control
- Title(参考訳): スーパーバイザリスイッチング制御のためのオンライン学習
- Authors: Haoyuan Sun, Ali Jadbabaie,
- Abstract要約: 部分的に観測された線形力学系の監督スイッチング制御について検討する。
目的は、N$の候補コントローラのコレクションの中から選択することで、未知のシステムに最適なコントローラを特定し、デプロイすることである。
本稿では,これらの制御理論の課題に対処するために,マルチアームバンディットアルゴリズムを適用したオーバシリ制御の非漸近解析を提案する。
- 参考スコア(独自算出の注目度): 32.18235763142726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study supervisory switching control for partially-observed linear dynamical systems. The objective is to identify and deploy the best controller for the unknown system by periodically selecting among a collection of $N$ candidate controllers, some of which may destabilize the underlying system. While classical estimator-based supervisory control guarantees asymptotic stability, it lacks quantitative finite-time performance bounds. Conversely, current non-asymptotic methods in both online learning and system identification require restrictive assumptions that are incompatible in a control setting, such as system stability, which preclude testing potentially unstable controllers. To bridge this gap, we propose a novel, non-asymptotic analysis of supervisory control that adapts multi-armed bandit algorithms to address these control-theoretic challenges. Our data-driven algorithm evaluates candidate controllers via scoring criteria that leverage system observability to isolate the effects of historical states, enabling both detection of destabilizing controllers and accurate system identification. We present two algorithmic variants with dimension-free, finite-time guarantees, where each identifies the most suitable controller in $\mathcal{O}(N \log N)$ steps, while simultaneously achieving finite $L_2$-gain with respect to system disturbances.
- Abstract(参考訳): 部分的に観測された線形力学系の監督スイッチング制御について検討する。
目的は、N$の候補コントローラのコレクションの中から定期的に選択することで、未知のシステムに最適なコントローラを特定し、デプロイすることである。
古典的推定器に基づく監督制御は漸近安定性を保証するが、定量的な有限時間性能境界は欠如している。
逆に、オンライン学習とシステム識別の両方における現在の非漸近的手法は、システムの安定性のような制御環境において互換性のない制約的な仮定を必要とする。
このギャップを埋めるために、我々は、これらの制御理論的な課題に対処するために、マルチアームバンディットアルゴリズムを適用した、新しい非漸近的なスーパーバイザ制御解析を提案する。
データ駆動型アルゴリズムは、システムの可観測性を利用した評価基準を用いて、履歴状態の影響を分離し、不安定化コントローラの検出と正確なシステム識別を可能にする。
次元自由な有限時間保証を持つ2つのアルゴリズム的不変量を示し、それぞれが$\mathcal{O}(N \log N)$ stepsにおいて最も適切なコントローラを識別し、同時にシステム障害に関して有限$L_2$-geinを達成する。
関連論文リスト
- Neural Port-Hamiltonian Models for Nonlinear Distributed Control: An Unconstrained Parametrization Approach [0.0]
ニューラルネットワーク(NN)は、優れたパフォーマンスをもたらす制御ポリシのパラメータ化に利用することができる。
NNの小さな入力変更に対する感度は、クローズドループシステムの不安定化のリスクを引き起こす。
これらの問題に対処するために、ポート・ハミルトンシステムのフレームワークを活用して、連続時間分散制御ポリシーを設計する。
提案する分散コントローラの有効性は,非ホロノミック移動ロボットのコンセンサス制御によって実証される。
論文 参考訳(メタデータ) (2024-11-15T10:44:29Z) - Stability Bounds for Learning-Based Adaptive Control of Discrete-Time
Multi-Dimensional Stochastic Linear Systems with Input Constraints [3.8004168340068336]
本研究では,有界制御入力制約と非有界障害を有する離散時間多次元システムの適応安定化問題について考察する。
本稿では,オンラインパラメータ推定と飽和線形制御を組み合わせた等価制御手法を提案する。
論文 参考訳(メタデータ) (2023-04-02T16:38:13Z) - Sparsity in Partially Controllable Linear Systems [56.142264865866636]
本研究では, 部分制御可能な線形力学系について, 基礎となる空間パターンを用いて検討する。
最適制御には無関係な状態変数を特徴付ける。
論文 参考訳(メタデータ) (2021-10-12T16:41:47Z) - Stable Online Control of Linear Time-Varying Systems [49.41696101740271]
COCO-LQは、大規模なLTVシステムの入出力安定性を保証する効率的なオンライン制御アルゴリズムである。
COCO-LQの性能を実証実験とパワーシステム周波数制御の両例で実証した。
論文 参考訳(メタデータ) (2021-04-29T06:18:49Z) - A Meta-Learning Control Algorithm with Provable Finite-Time Guarantees [0.0]
オンラインメタ学習制御アルゴリズムを反復制御設定で証明可能な後悔の保証を提供する。
イテレーション内での学習に対する最悪の後悔は、より多くのイテレーションの経験を積んで継続的に改善することを示しています。
論文 参考訳(メタデータ) (2020-08-30T20:30:40Z) - Learning Stabilizing Controllers for Unstable Linear Quadratic
Regulators from a Single Trajectory [85.29718245299341]
線形2次制御器(LQR)としても知られる2次コストモデルの下で線形制御器を研究する。
楕円形不確実性集合内の全ての系を安定化させる制御器を構成する2つの異なる半定値プログラム(SDP)を提案する。
高い確率で安定化コントローラを迅速に識別できる効率的なデータ依存アルゴリズムであるtextsceXplorationを提案する。
論文 参考訳(メタデータ) (2020-06-19T08:58:57Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Improper Learning for Non-Stochastic Control [78.65807250350755]
逆方向の摂動, 逆方向に選択された凸損失関数, 部分的に観察された状態を含む, 未知の線形力学系を制御することの問題点を考察する。
このパラメトリゼーションにオンライン降下を適用することで、大規模なクローズドループポリシーに対してサブリニア後悔を実現する新しいコントローラが得られる。
我々の境界は、線形力学コントローラの安定化と競合する非確率的制御設定における最初のものである。
論文 参考訳(メタデータ) (2020-01-25T02:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。