論文の概要: A PAC-Bayes Approach for Controlling Unknown Linear Discrete-time Systems
- arxiv url: http://arxiv.org/abs/2605.10493v1
- Date: Mon, 11 May 2026 12:51:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.820925
- Title: A PAC-Bayes Approach for Controlling Unknown Linear Discrete-time Systems
- Title(参考訳): 未知の線形離散時間系の制御のためのPAC-Bayesアプローチ
- Authors: Yujia Luo, Ye Pu, Jonathan H. Manton, Jingge Zhu,
- Abstract要約: 未知の線形離散時間系のためのコントローラ学習のためのPAC-Bayesフレームワーク
本稿では,有限および無限の制御空間に実装可能な理論保証付き新しい効率的な学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 14.855783196702191
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a PAC-Bayes framework for learning controllers for unknown stochastic linear discrete-time systems, where the system parameters are drawn from a fixed but unknown distribution. We derive a data-dependent high probability bound on the performance of any learned (stochastic) controller, and propose novel efficient learning algorithms with theoretical guarantees, which can be implemented for both finite and infinite controller spaces. Compared to prior work, our bound holds for unbounded quadratic cost. In the special case where LQG is optimal, our numerical results suggest that the learned controllers achieve comparable performance to LQG.
- Abstract(参考訳): 本稿では,未知の確率線形離散時間系の制御系を学習するためのPAC-Bayesフレームワークを提案する。
学習した(確率的な)コントローラの性能に縛られるデータ依存の高確率を導出し、有限および無限のコントローラ空間に実装可能な理論保証付き新しい効率的な学習アルゴリズムを提案する。
以前の作業と比較して、我々の限界は有界二次コストである。
LQGが最適である特別な場合、学習したコントローラがLQGに匹敵する性能を達成できることを示す。
関連論文リスト
- Exploiting Differential Flatness for Efficient Learning-based Model Predictive Control of Constrained Multi-Input Control Affine Systems [7.1560498064883875]
本稿では,多くのロボットシステムの特性である微分平坦性を利用する学習ベースコントローラを提案する。
本手法では,システム拡張とブロック対角線コストの定式化を用いて,一般的なマルチインプット,非線形,アフィン系を制御する。
論文 参考訳(メタデータ) (2026-04-27T17:14:17Z) - End-to-End Learning Framework for Solving Non-Markovian Optimal Control [13.207458293652635]
本稿では、FOLTIシステムのための革新的なシステム識別方法制御戦略を提案する。
また、最初のエンドツーエンドデータ駆動学習フレームワークであるFractional-Order Learning for Optimal Control(FOLOC)も開発しています。
論文 参考訳(メタデータ) (2025-02-07T04:18:56Z) - Actor-Critic based Improper Reinforcement Learning [61.430513757337486]
我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。
本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T05:55:02Z) - Sparsity in Partially Controllable Linear Systems [56.142264865866636]
本研究では, 部分制御可能な線形力学系について, 基礎となる空間パターンを用いて検討する。
最適制御には無関係な状態変数を特徴付ける。
論文 参考訳(メタデータ) (2021-10-12T16:41:47Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Regret Analysis of Learning-Based MPC with Partially-Unknown Cost
Function [5.601217969637838]
探索/探索のトレードオフは、データ駆動および適応制御において固有の課題である。
本稿では、最適制御動作の基準として、全てのシステムパラメータの完全な知識を持つ有限水平オラクルコントローラを提案する。
我々は,このオラクル有限ホライゾンコントローラに関して,低後悔を達成できる学習ベースのポリシーを開発する。
論文 参考訳(メタデータ) (2021-08-04T22:43:51Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Reinforcement Learning Control of Constrained Dynamic Systems with
Uniformly Ultimate Boundedness Stability Guarantee [12.368097742148128]
強化学習(RL)は複雑な非線形制御問題に対して有望である。
データベースの学習アプローチは、安定性を保証していないことで悪名高い。
本稿では,古典的なリャプノフ法を用いて,データのみに基づいて一様極大境界性安定性(UUB)を解析する。
論文 参考訳(メタデータ) (2020-11-13T12:41:56Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。