論文の概要: Thompson Sampling-Based Learning and Control for Unknown Dynamic Systems
- arxiv url: http://arxiv.org/abs/2506.22186v1
- Date: Fri, 27 Jun 2025 12:49:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.203859
- Title: Thompson Sampling-Based Learning and Control for Unknown Dynamic Systems
- Title(参考訳): トンプソンサンプリングに基づく未知力学系の学習と制御
- Authors: Kaikai Zheng, Dawei Shi, Yang Shi, Long Wang,
- Abstract要約: 本研究では,再現カーネルヒルベルト空間を用いた法学学習のパラメータ化手法を提案する。
具体的には,制御法則を関数空間の要素として扱い,制御法則をシステム構造や制御器の形態に制約を加えることなく設計することができる。
- 参考スコア(独自算出の注目度): 3.2838069660929436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Thompson sampling (TS) is an effective method to explore parametric uncertainties and can therefore be used for active learning-based controller design. However, TS relies on finite parametric representations, which limits its applicability to more general spaces, which are more commonly encountered in control system design. To address this issue, this work pro poses a parameterization method for control law learning using reproducing kernel Hilbert spaces and designs a data-driven active learning control approach. Specifically, the proposed method treats the control law as an element in a function space, allowing the design of control laws without imposing restrictions on the system structure or the form of the controller. A TS framework is proposed in this work to explore potential optimal control laws, and the convergence guarantees are further provided for the learning process. Theoretical analysis shows that the proposed method learns the relationship between control laws and closed-loop performance metrics at an exponential rate, and the upper bound of control regret is also derived. Numerical experiments on controlling unknown nonlinear systems validate the effectiveness of the proposed method.
- Abstract(参考訳): トンプソンサンプリング(TS)はパラメトリックな不確実性を探究するための有効な手法であり、したがってアクティブな学習ベースのコントローラ設計に使用できる。
しかし、TSは有限パラメトリック表現に依存しており、制御系設計においてよく見られるより一般的な空間への適用性を制限する。
この問題に対処するため,本研究はカーネルヒルベルト空間を再現した法学学習のパラメータ化手法を提案し,データ駆動型能動学習制御アプローチを設計する。
具体的には,制御法則を関数空間の要素として扱い,制御法則をシステム構造や制御器の形態に制約を加えることなく設計することができる。
本研究では, 最適制御法則を探索するためにTSフレームワークを提案し, 学習プロセスに収束保証をさらに与えた。
理論的解析により,提案手法は制御則と閉ループ性能指標の関係を指数速度で学習し,制御残差の上限も導出した。
未知の非線形システムの制御に関する数値実験により,提案手法の有効性が検証された。
関連論文リスト
- Tuning Legged Locomotion Controllers via Safe Bayesian Optimization [47.87675010450171]
本稿では,ロボットハードウェアプラットフォームにおけるモデルベースコントローラの展開を効率化するための,データ駆動型戦略を提案する。
モデルフリーな安全な学習アルゴリズムを用いて制御ゲインのチューニングを自動化し、制御定式化で使用される単純化されたモデルと実システムとのミスマッチに対処する。
論文 参考訳(メタデータ) (2023-06-12T13:10:14Z) - In-Distribution Barrier Functions: Self-Supervised Policy Filters that
Avoid Out-of-Distribution States [84.24300005271185]
本稿では,任意の参照ポリシーをラップした制御フィルタを提案する。
本手法は、トップダウンとエゴセントリックの両方のビュー設定を含むシミュレーション環境における2つの異なるビズモータ制御タスクに有効である。
論文 参考訳(メタデータ) (2023-01-27T22:28:19Z) - Steady-State Error Compensation in Reference Tracking and Disturbance
Rejection Problems for Reinforcement Learning-Based Control [0.9023847175654602]
強化学習(Reinforcement Learning, RL)は、自動制御アプリケーションにおける将来的なトピックである。
アクター批判に基づくRLコントローラのためのイニシアティブアクション状態拡張(IASA)が導入される。
この拡張は専門家の知識を必要とせず、アプローチモデルを無償にしておく。
論文 参考訳(メタデータ) (2022-01-31T16:29:19Z) - Nonlinear Control Allocation: A Learning Based Approach [0.0]
現代の航空機は、耐故障性と操縦性要件を満たすために冗長な制御エフェクターで設計されている。
これにより航空機は過度に作動し、制御エフェクタ間で制御コマンドを分配するために制御割り当てスキームが必要となる。
伝統的に最適化に基づく制御割当スキームが用いられるが、非線型割当問題では、これらの手法は大きな計算資源を必要とする。
本研究では,ニューラルネットワーク(ANN)に基づく非線形制御割り当て方式を提案する。
論文 参考訳(メタデータ) (2022-01-17T02:30:25Z) - Sparsity in Partially Controllable Linear Systems [56.142264865866636]
本研究では, 部分制御可能な線形力学系について, 基礎となる空間パターンを用いて検討する。
最適制御には無関係な状態変数を特徴付ける。
論文 参考訳(メタデータ) (2021-10-12T16:41:47Z) - Deep Learning Explicit Differentiable Predictive Control Laws for
Buildings [1.4121977037543585]
未知の非線形システムに対する制約付き制御法を学習するための微分予測制御(DPC)手法を提案する。
DPCは、明示的非線形モデル予測制御(MPC)から生じるマルチパラメトリックプログラミング問題に対する近似解を提供する
論文 参考訳(メタデータ) (2021-07-25T16:47:57Z) - Control Barrier Functions for Unknown Nonlinear Systems using Gaussian
Processes [17.870440210358847]
本稿では,安全制約を確保しつつ,未知の非線形システムに対する制御器の合成に焦点をあてる。
学習段階において、未知の制御アフィン非線形力学を学習するために、学習したモデルの精度に統計的に拘束されるように、データ駆動方式を用いる。
第2の制御器合成ステップでは,学習モデルの不確実性を考慮した制御障壁関数の計算方式を開発する。
論文 参考訳(メタデータ) (2020-10-12T16:12:52Z) - Anticipating the Long-Term Effect of Online Learning in Control [75.6527644813815]
AntLerは、学習を予想する学習ベースの制御法則の設計アルゴリズムである。
AntLer は確率 1 と任意に最適な解を近似することを示す。
論文 参考訳(メタデータ) (2020-07-24T07:00:14Z) - Responsive Safety in Reinforcement Learning by PID Lagrangian Methods [74.49173841304474]
ラグランジアン法は振動とオーバーシュートを示し、安全強化学習に適用すると制約違反行動を引き起こす。
制約関数の微分を利用する新しいラグランジュ乗算器更新法を提案する。
我々はPIDラグランジアン法を深部RLに適用し、安全RLベンチマークであるSafety Gymにおける新しい技術状態を設定する。
論文 参考訳(メタデータ) (2020-07-08T08:43:14Z) - Model-Reference Reinforcement Learning Control of Autonomous Surface
Vehicles with Uncertainties [1.7033108359337459]
提案した制御は,従来の制御手法と深層強化学習を組み合わせたものである。
強化学習により,不確かさのモデリングを補うための制御法を直接学習することができる。
従来の深層強化学習法と比較して,提案した学習に基づく制御は安定性を保証し,サンプル効率を向上することができる。
論文 参考訳(メタデータ) (2020-03-30T22:02:13Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。