論文の概要: Performance-Driven Controller Tuning via Derivative-Free Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2209.04854v1
- Date: Sun, 11 Sep 2022 13:01:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 14:18:57.371583
- Title: Performance-Driven Controller Tuning via Derivative-Free Reinforcement
Learning
- Title(参考訳): 微分自由強化学習によるパフォーマンス駆動型コントローラチューニング
- Authors: Yuheng Lei, Jianyu Chen, Shengbo Eben Li, Sifa Zheng
- Abstract要約: 我々は,新しい微分自由強化学習フレームワークを用いて,制御器のチューニング問題に取り組む。
我々は,PIDコントローラを用いた適応走行制御とMPCコントローラを用いた軌道追跡という,自律走行による2つの具体例に関する数値実験を行った。
実験の結果,提案手法は一般的なベースラインよりも優れており,コントローラチューニングの強い可能性を強調している。
- 参考スコア(独自算出の注目度): 6.5158195776494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Choosing an appropriate parameter set for the designed controller is critical
for the final performance but usually requires a tedious and careful tuning
process, which implies a strong need for automatic tuning methods. However,
among existing methods, derivative-free ones suffer from poor scalability or
low efficiency, while gradient-based ones are often unavailable due to possibly
non-differentiable controller structure. To resolve the issues, we tackle the
controller tuning problem using a novel derivative-free reinforcement learning
(RL) framework, which performs timestep-wise perturbation in parameter space
during experience collection and integrates derivative-free policy updates into
the advanced actor-critic RL architecture to achieve high versatility and
efficiency. To demonstrate the framework's efficacy, we conduct numerical
experiments on two concrete examples from autonomous driving, namely, adaptive
cruise control with PID controller and trajectory tracking with MPC controller.
Experimental results show that the proposed method outperforms popular
baselines and highlight its strong potential for controller tuning.
- Abstract(参考訳): 設計したコントローラに適切なパラメータセットを選択することは最終的なパフォーマンスには不可欠であるが、通常は退屈で慎重なチューニングプロセスを必要とする。
しかし、既存の手法では、微分自由度はスケーラビリティの低下や効率の低下に悩まされ、勾配ベースでは微分不可能なコントローラ構造のためにしばしば利用できない。
この問題を解決するために,経験収集中にパラメータ空間の時間的摂動を行い,デリバティブフリーポリシー更新を高度なアクタクリティカルなRLアーキテクチャに統合し,高い汎用性と効率を実現する,新しい微分自由強化学習(RL)フレームワークを用いた制御チューニング問題に取り組む。
この枠組みの有効性を実証するために, 自律運転, pid制御による適応クルーズ制御とmpc制御による軌道追跡の2つの具体例について数値実験を行った。
実験の結果,提案手法は一般的なベースラインを上回っており,コントローラチューニングの強力な可能性を示している。
関連論文リスト
- Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - ReACT: Reinforcement Learning for Controller Parametrization using
B-Spline Geometries [0.0]
本研究は,N次元B-スプライン測地(BSG)を用いた深部強化学習(DRL)を用いた新しいアプローチを提案する。
本稿では,操作条件に依存する複雑な振る舞いを持つシステムのクラスであるパラメータ変量システムの制御に焦点をあてる。
多数の動作条件に依存するコントローラパラメータをマッピングするために,BSGを導入し,適応処理をより効率的にする。
論文 参考訳(メタデータ) (2024-01-10T16:27:30Z) - Tuning Legged Locomotion Controllers via Safe Bayesian Optimization [47.87675010450171]
本稿では,ロボットハードウェアプラットフォームにおけるモデルベースコントローラの展開を効率化するための,データ駆動型戦略を提案する。
モデルフリーな安全な学習アルゴリズムを用いて制御ゲインのチューニングを自動化し、制御定式化で使用される単純化されたモデルと実システムとのミスマッチに対処する。
論文 参考訳(メタデータ) (2023-06-12T13:10:14Z) - Designing a Robust Low-Level Agnostic Controller for a Quadrotor with
Actor-Critic Reinforcement Learning [0.38073142980732994]
ソフトアクター・クリティカルに基づく低レベルウェイポイント誘導制御器の訓練段階におけるドメインランダム化を提案する。
トレーニング中の四元数力学に一定の不確実性を導入することにより、より大規模な四元数パラメータを用いて提案課題を実行することができる制御器が得られることを示す。
論文 参考訳(メタデータ) (2022-10-06T14:58:19Z) - Improving the Performance of Robust Control through Event-Triggered
Learning [74.57758188038375]
LQR問題における不確実性に直面していつ学習するかを決定するイベントトリガー学習アルゴリズムを提案する。
本研究では,ロバストな制御器ベースライン上での性能向上を数値例で示す。
論文 参考訳(メタデータ) (2022-07-28T17:36:37Z) - On Controller Tuning with Time-Varying Bayesian Optimization [74.57758188038375]
制御対象とその変更に関する適切な事前知識を用いて、時間変化最適化(TVBO)を用いて、変更環境におけるコントローラのオンラインチューニングを行う。
本研究では,不確実性注入(UI)を用いたTVBO戦略を提案する。
我々のモデルはTVBOの最先端手法よりも優れており、後悔の軽減と不安定なパラメータ構成の低減を実現している。
論文 参考訳(メタデータ) (2022-07-22T14:54:13Z) - Regret-optimal Estimation and Control [52.28457815067461]
後悔最適推定器と後悔最適制御器は状態空間形式で導出可能であることを示す。
非線形力学系に対するモデル予測制御(MPC)と拡張KalmanFilter(EKF)の残差最適類似性を提案する。
論文 参考訳(メタデータ) (2021-06-22T23:14:21Z) - DiffLoop: Tuning PID controllers by differentiating through the feedback
loop [8.477619837043214]
本稿では,PIDチューニングとアンチ・ウィンドアップ対策について検討する。
特に、コスト関数を用いて、制御性能を向上させるために勾配を生成する。
論文 参考訳(メタデータ) (2021-06-19T15:26:46Z) - Adaptive Optimal Trajectory Tracking Control Applied to a Large-Scale
Ball-on-Plate System [0.0]
ADPを用いた大規模ボール・オン・プレートシステムのための最適軌道追従制御器を提案する。
提案手法では,セットポイントトラッキングの代わりに参照軌道を近似し,一定のオフセット項を自動的に補償することができる。
実験の結果, このトラッキング機構は, セットポイントコントローラに比べて制御コストを大幅に削減することがわかった。
論文 参考訳(メタデータ) (2020-10-26T11:22:03Z) - Optimal PID and Antiwindup Control Design as a Reinforcement Learning
Problem [3.131740922192114]
DRL制御法の解釈可能性に着目した。
特に、線形固定構造コントローラをアクター・クリティカル・フレームワークに埋め込まれた浅層ニューラルネットワークとみなす。
論文 参考訳(メタデータ) (2020-05-10T01:05:26Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。