論文の概要: ReACT: Reinforcement Learning for Controller Parametrization using
B-Spline Geometries
- arxiv url: http://arxiv.org/abs/2401.05251v1
- Date: Wed, 10 Jan 2024 16:27:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 14:06:02.169381
- Title: ReACT: Reinforcement Learning for Controller Parametrization using
B-Spline Geometries
- Title(参考訳): ReACT: B-Spline Geometries を用いたコントローラパラメトリゼーションのための強化学習
- Authors: Thomas Rudolf, Daniel Fl\"ogel, Tobias Sch\"urmann, Simon S\"u{\ss},
Stefan Schwab, S\"oren Hohmann
- Abstract要約: 本研究は,N次元B-スプライン測地(BSG)を用いた深部強化学習(DRL)を用いた新しいアプローチを提案する。
本稿では,操作条件に依存する複雑な振る舞いを持つシステムのクラスであるパラメータ変量システムの制御に焦点をあてる。
多数の動作条件に依存するコントローラパラメータをマッピングするために,BSGを導入し,適応処理をより効率的にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust and performant controllers are essential for industrial applications.
However, deriving controller parameters for complex and nonlinear systems is
challenging and time-consuming. To facilitate automatic controller
parametrization, this work presents a novel approach using deep reinforcement
learning (DRL) with N-dimensional B-spline geometries (BSGs). We focus on the
control of parameter-variant systems, a class of systems with complex behavior
which depends on the operating conditions. For this system class,
gain-scheduling control structures are widely used in applications across
industries due to well-known design principles. Facilitating the expensive
controller parametrization task regarding these control structures, we deploy
an DRL agent. Based on control system observations, the agent autonomously
decides how to adapt the controller parameters. We make the adaptation process
more efficient by introducing BSGs to map the controller parameters which may
depend on numerous operating conditions. To preprocess time-series data and
extract a fixed-length feature vector, we use a long short-term memory (LSTM)
neural networks. Furthermore, this work contributes actor regularizations that
are relevant to real-world environments which differ from training.
Accordingly, we apply dropout layer normalization to the actor and critic
networks of the truncated quantile critic (TQC) algorithm. To show our
approach's working principle and effectiveness, we train and evaluate the DRL
agent on the parametrization task of an industrial control structure with
parameter lookup tables.
- Abstract(参考訳): ロバストで高性能なコントローラは産業用途に欠かせない。
しかし、複素および非線形システムに対する制御パラメータの導出は困難で時間がかかる。
本研究は,N次元B-スプラインジオメトリ(BSG)を用いた深部強化学習(DRL)を用いた新しい手法を提案する。
本稿では,操作条件に依存する複雑な振る舞いを持つシステムのクラスであるパラメータ変動システムの制御に焦点を当てる。
このシステムクラスでは、ゲインスケジューリング制御構造はよく知られた設計原則により、業界全体のアプリケーションで広く使われている。
これらの制御構造に関する高価なコントローラパラメトリゼーションタスクを実現するため,DRLエージェントをデプロイする。
制御系の観測に基づいて、エージェントはコントローラパラメータの適応方法を自律的に決定する。
多数の動作条件に依存するコントローラパラメータをマッピングするために,BSGを導入して適応処理をより効率的にする。
時系列データを前処理し、固定長特徴ベクトルを抽出するために、長い短期記憶(LSTM)ニューラルネットワークを用いる。
さらに、この研究は、訓練とは異なる実環境に関連するアクタの正規化にも寄与する。
そこで我々は,TQCアルゴリズムのアクターおよび批評家ネットワークに対して,ドロップアウト層正規化を適用した。
提案手法の動作原理と有効性を示すため,パラメータ検索表を用いた産業制御構造のパラメータ化タスクにおいてDRLエージェントを訓練し,評価する。
関連論文リスト
- Parameter-Adaptive Approximate MPC: Tuning Neural-Network Controllers without Retraining [50.00291020618743]
この研究は、大規模なデータセットを再計算し、再トレーニングすることなくオンラインチューニングが可能な、新しいパラメータ適応型AMPCアーキテクチャを導入している。
資源制約の厳しいマイクロコントローラ(MCU)を用いた2種類の実カートポールシステムの揺らぎを制御し,パラメータ適応型AMPCの有効性を示す。
これらの貢献は、現実世界のシステムにおけるAMPCの実践的応用に向けた重要な一歩である。
論文 参考訳(メタデータ) (2024-04-08T20:02:19Z) - Decision Transformer as a Foundation Model for Partially Observable Continuous Control [5.453548045211778]
決定変換器(DT)アーキテクチャは、過去の観測、行動、報酬に基づいて最適な行動を予測するために使用される。
DTは、全く新しいタスクに対して驚くべきゼロショットの一般化能力を示す。
これらの知見は、一般的な制御アプリケーションの基本制御系としてのDTの可能性を示している。
論文 参考訳(メタデータ) (2024-04-03T02:17:34Z) - Designing a Robust Low-Level Agnostic Controller for a Quadrotor with
Actor-Critic Reinforcement Learning [0.38073142980732994]
ソフトアクター・クリティカルに基づく低レベルウェイポイント誘導制御器の訓練段階におけるドメインランダム化を提案する。
トレーニング中の四元数力学に一定の不確実性を導入することにより、より大規模な四元数パラメータを用いて提案課題を実行することができる制御器が得られることを示す。
論文 参考訳(メタデータ) (2022-10-06T14:58:19Z) - Performance-Driven Controller Tuning via Derivative-Free Reinforcement
Learning [6.5158195776494]
我々は,新しい微分自由強化学習フレームワークを用いて,制御器のチューニング問題に取り組む。
我々は,PIDコントローラを用いた適応走行制御とMPCコントローラを用いた軌道追跡という,自律走行による2つの具体例に関する数値実験を行った。
実験の結果,提案手法は一般的なベースラインよりも優れており,コントローラチューニングの強い可能性を強調している。
論文 参考訳(メタデータ) (2022-09-11T13:01:14Z) - On Controller Tuning with Time-Varying Bayesian Optimization [74.57758188038375]
制御対象とその変更に関する適切な事前知識を用いて、時間変化最適化(TVBO)を用いて、変更環境におけるコントローラのオンラインチューニングを行う。
本研究では,不確実性注入(UI)を用いたTVBO戦略を提案する。
我々のモデルはTVBOの最先端手法よりも優れており、後悔の軽減と不安定なパラメータ構成の低減を実現している。
論文 参考訳(メタデータ) (2022-07-22T14:54:13Z) - Good Intentions: Adaptive Parameter Management via Intent Signaling [50.01012642343155]
そこで本研究では,既存の機械学習スタックに自然に統合された新たなインテントシグナリング機構を提案する。
次に、このメカニズムに基づいて、完全に適応的でゼロチューニングのパラメータマネージャであるAdaPMについて説明する。
私たちの評価では、AdaPMは、最先端のパラメータマネージャにマッチするか、あるいはパフォーマンスが良くなりました。
論文 参考訳(メタデータ) (2022-06-01T13:02:19Z) - Steady-State Error Compensation in Reference Tracking and Disturbance
Rejection Problems for Reinforcement Learning-Based Control [0.9023847175654602]
強化学習(Reinforcement Learning, RL)は、自動制御アプリケーションにおける将来的なトピックである。
アクター批判に基づくRLコントローラのためのイニシアティブアクション状態拡張(IASA)が導入される。
この拡張は専門家の知識を必要とせず、アプローチモデルを無償にしておく。
論文 参考訳(メタデータ) (2022-01-31T16:29:19Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - Learning a Contact-Adaptive Controller for Robust, Efficient Legged
Locomotion [95.1825179206694]
四足歩行ロボットのためのロバストコントローラを合成するフレームワークを提案する。
高レベルコントローラは、環境の変化に応じてプリミティブのセットを選択することを学習する。
確立された制御方法を使用してプリミティブを堅牢に実行する低レベルコントローラ。
論文 参考訳(メタデータ) (2020-09-21T16:49:26Z) - Optimal PID and Antiwindup Control Design as a Reinforcement Learning
Problem [3.131740922192114]
DRL制御法の解釈可能性に着目した。
特に、線形固定構造コントローラをアクター・クリティカル・フレームワークに埋め込まれた浅層ニューラルネットワークとみなす。
論文 参考訳(メタデータ) (2020-05-10T01:05:26Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。