論文の概要: On Controller Tuning with Time-Varying Bayesian Optimization
- arxiv url: http://arxiv.org/abs/2207.11120v1
- Date: Fri, 22 Jul 2022 14:54:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-25 13:54:33.620472
- Title: On Controller Tuning with Time-Varying Bayesian Optimization
- Title(参考訳): 時変ベイズ最適化による制御器チューニングについて
- Authors: Paul Brunzema and Alexander von Rohr and Sebastian Trimpe
- Abstract要約: 制御対象とその変更に関する適切な事前知識を用いて、時間変化最適化(TVBO)を用いて、変更環境におけるコントローラのオンラインチューニングを行う。
本研究では,不確実性注入(UI)を用いたTVBO戦略を提案する。
我々のモデルはTVBOの最先端手法よりも優れており、後悔の軽減と不安定なパラメータ構成の低減を実現している。
- 参考スコア(独自算出の注目度): 74.57758188038375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Changing conditions or environments can cause system dynamics to vary over
time. To ensure optimal control performance, controllers should adapt to these
changes. When the underlying cause and time of change is unknown, we need to
rely on online data for this adaptation. In this paper, we will use
time-varying Bayesian optimization (TVBO) to tune controllers online in
changing environments using appropriate prior knowledge on the control
objective and its changes. Two properties are characteristic of many online
controller tuning problems: First, they exhibit incremental and lasting changes
in the objective due to changes to the system dynamics, e.g., through wear and
tear. Second, the optimization problem is convex in the tuning parameters.
Current TVBO methods do not explicitly account for these properties, resulting
in poor tuning performance and many unstable controllers through
over-exploration of the parameter space. We propose a novel TVBO forgetting
strategy using Uncertainty-Injection (UI), which incorporates the assumption of
incremental and lasting changes. The control objective is modeled as a
spatio-temporal Gaussian process (GP) with UI through a Wiener process in the
temporal domain. Further, we explicitly model the convexity assumptions in the
spatial dimension through GP models with linear inequality constraints. In
numerical experiments, we show that our model outperforms the state-of-the-art
method in TVBO, exhibiting reduced regret and fewer unstable parameter
configurations.
- Abstract(参考訳): 条件や環境の変化は、システムのダイナミクスを時間とともに変化させる可能性がある。
最適な制御性能を確保するために、コントローラはこれらの変更に適応する必要がある。
根本的な原因と変更時期が不明な場合には、この適応のためにオンラインデータに頼る必要があります。
本稿では,制御対象とその変更に関する事前知識を用いて,時間変化ベイズ最適化(TVBO)を用いて,環境変化におけるコントローラのオンラインチューニングを行う。
2つの特性は、多くのオンラインコントローラチューニング問題の特徴である: 第一に、これらは、例えば摩耗と涙によるシステムダイナミクスの変化による目標の漸進的かつ持続的な変化を示す。
第二に、最適化問題はチューニングパラメータの凸である。
現在のTVBO法はこれらの特性を明示的に考慮していないため、パラメータ空間の過度探索によるチューニング性能の低下や不安定なコントローラが多数存在する。
本稿では,インクリメンタルかつ持続的な変化の仮定を組み込んだ,不確実性インジェクション(ui)を用いた新しいtvboルゲティング戦略を提案する。
制御対象は、時間領域のWienerプロセスを介してUIを備えた時空間ガウス過程(GP)としてモデル化される。
さらに,線形不等式制約を持つGPモデルを用いて空間次元の凸性仮定を明示的にモデル化する。
数値実験では,本モデルがTVBOの最先端手法よりも優れ,後悔の低減と不安定なパラメータ構成の低下を示す。
関連論文リスト
- Parameter-Adaptive Approximate MPC: Tuning Neural-Network Controllers without Retraining [50.00291020618743]
この研究は、大規模なデータセットを再計算し、再トレーニングすることなくオンラインチューニングが可能な、新しいパラメータ適応型AMPCアーキテクチャを導入している。
資源制約の厳しいマイクロコントローラ(MCU)を用いた2種類の実カートポールシステムの揺らぎを制御し,パラメータ適応型AMPCの有効性を示す。
これらの貢献は、現実世界のシステムにおけるAMPCの実践的応用に向けた重要な一歩である。
論文 参考訳(メタデータ) (2024-04-08T20:02:19Z) - Sub-linear Regret in Adaptive Model Predictive Control [56.705978425244496]
本稿では,STT-MPC (Self-Tuning tube-based Model Predictive Control) について述べる。
システム力学を最初に認識したアルゴリズムと比較して,アルゴリズムの後悔を解析する。
論文 参考訳(メタデータ) (2023-10-07T15:07:10Z) - Self-Tuning PID Control via a Hybrid Actor-Critic-Based Neural Structure
for Quadcopter Control [0.0]
Proportional-Integrator-Derivative (PID) コントローラは、幅広い産業および実験プロセスで使用されている。
モデルパラメータの不確実性と外乱のため、Quadrotorsのような実際のシステムはより堅牢で信頼性の高いPIDコントローラを必要とする。
本研究では,Reinforcement-Learning-based Neural Networkを用いた自己調整型PIDコントローラについて検討した。
論文 参考訳(メタデータ) (2023-07-03T19:35:52Z) - PTP: Boosting Stability and Performance of Prompt Tuning with
Perturbation-Based Regularizer [94.23904400441957]
損失景観を平滑化できる摂動型正規化器を即時チューニングに導入する。
我々は乱数ノイズベースと逆数ベースを含む2種類の摂動型正規化器を設計する。
我々の新しいアルゴリズムは,SuperGLUEベンチマークとFewGLUEベンチマークでそれぞれ1.94%,2.34%の最先端のプロンプトチューニング手法を改善した。
論文 参考訳(メタデータ) (2023-05-03T20:30:51Z) - Performance-Driven Controller Tuning via Derivative-Free Reinforcement
Learning [6.5158195776494]
我々は,新しい微分自由強化学習フレームワークを用いて,制御器のチューニング問題に取り組む。
我々は,PIDコントローラを用いた適応走行制御とMPCコントローラを用いた軌道追跡という,自律走行による2つの具体例に関する数値実験を行った。
実験の結果,提案手法は一般的なベースラインよりも優れており,コントローラチューニングの強い可能性を強調している。
論文 参考訳(メタデータ) (2022-09-11T13:01:14Z) - Event-Triggered Time-Varying Bayesian Optimization [47.30677525394649]
目的関数の変化を検知し、データセットをリセットするまで、最適化問題を静的に扱うイベントトリガー付きアルゴリズムを提案する。
これにより、アルゴリズムは正確な事前知識を必要とせずに、オンラインで時間変化を実現することができる。
時間的変化を正確に知ることなく、適応リセットの残差を導出し、ET-GP-UCBが合成データと実世界のデータの両方で最先端のアルゴリズムより優れていることを示す数値実験を行った。
論文 参考訳(メタデータ) (2022-08-23T07:50:52Z) - Adaptive Model Predictive Control by Learning Classifiers [26.052368583196426]
制御パラメータとモデルパラメータを自動的に推定する適応型MPC変種を提案する。
我々は,BOを密度比推定として定式化できることを示す最近の結果を活用する。
その後、これはモデル予測経路積分制御フレームワークに統合され、様々な困難なロボティクスタスクのための堅牢なコントローラを生成する。
論文 参考訳(メタデータ) (2022-03-13T23:22:12Z) - Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-03-25T06:00:33Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Online Parameter Estimation for Safety-Critical Systems with Gaussian
Processes [6.122161391301866]
オンラインパラメータ推定のためのガウス過程(GP)に基づくベイズ最適化フレームワークを提案する。
パラメータ空間の応答面上の効率的な探索戦略を用いて、最小限の機能評価で大域最適解を求める。
我々は,パラメータの変化を考慮したシミュレーションにおいて,アクティベートされた平面振子と安全臨界振子について実演する。
論文 参考訳(メタデータ) (2020-02-18T20:38:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。