論文の概要: Adaptive control of a mechatronic system using constrained residual
reinforcement learning
- arxiv url: http://arxiv.org/abs/2110.02566v1
- Date: Wed, 6 Oct 2021 08:13:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 14:08:56.934923
- Title: Adaptive control of a mechatronic system using constrained residual
reinforcement learning
- Title(参考訳): 制約付き残留強化学習によるメカトロニクス系の適応制御
- Authors: Tom Staessens, Tom Lefebvre and Guillaume Crevecoeur
- Abstract要約: 本研究では,不確実な環境下での従来のコントローラの性能向上のための,シンプルで実用的で直感的な手法を提案する。
本手法は, 産業用モーションコントロールにおける従来の制御器が, 異なる動作条件に対応するために適応性よりも頑健であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose a simple, practical and intuitive approach to improve the
performance of a conventional controller in uncertain environments using deep
reinforcement learning while maintaining safe operation. Our approach is
motivated by the observation that conventional controllers in industrial motion
control value robustness over adaptivity to deal with different operating
conditions and are suboptimal as a consequence. Reinforcement learning on the
other hand can optimize a control signal directly from input-output data and
thus adapt to operational conditions, but lacks safety guarantees, impeding its
use in industrial environments. To realize adaptive control using reinforcement
learning in such conditions, we follow a residual learning methodology, where a
reinforcement learning algorithm learns corrective adaptations to a base
controller's output to increase optimality. We investigate how constraining the
residual agent's actions enables to leverage the base controller's robustness
to guarantee safe operation. We detail the algorithmic design and propose to
constrain the residual actions relative to the base controller to increase the
method's robustness. Building on Lyapunov stability theory, we prove stability
for a broad class of mechatronic closed-loop systems. We validate our method
experimentally on a slider-crank setup and investigate how the constraints
affect the safety during learning and optimality after convergence.
- Abstract(参考訳): 安全運転を維持しつつ、深層強化学習を用いて、不確実な環境下での従来の制御装置の性能を向上させるための、シンプルで実用的で直感的なアプローチを提案する。
本手法は,産業用モーションコントロールにおける従来の制御器が,異なる動作条件に対処するために適応性よりも頑健であり,結果として準最適であることを示す。
一方、強化学習は、入力出力データから直接制御信号を最適化することができ、運用条件に適応できるが、産業環境での使用を妨げる安全性保証が欠如している。
このような条件下で強化学習を用いた適応制御を実現するために,強化学習アルゴリズムがベースコントローラの出力に対する補正適応を学習し,最適性を向上する残留学習手法に従う。
本研究では,残余エージェントの動作の制約がベースコントローラのロバスト性を有効活用し,安全な操作を保証できるかを検討する。
アルゴリズム設計を詳述し,本手法のロバスト性を高めるために,ベースコントローラに対する残留動作を制限することを提案する。
リャプノフ安定性理論に基づいて、幅広い種類のメカトロニクス閉ループ系の安定性を証明した。
提案手法をスライダクランク設定で実験的に検証し,制約が収束後の学習中の安全性と最適性に与える影響について検討した。
関連論文リスト
- Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Efficient Exploration Using Extra Safety Budget in Constrained Policy
Optimization [15.483557012655927]
本稿では, 探索効率と制約満足度とのバランスをとるために, ESB-CPO (Constrained Policy Optimization with Extra Safety Budget) というアルゴリズムを提案する。
提案手法は,ベースラインと比較して,同じコスト制限下での顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2023-02-28T06:16:34Z) - Adaptive Robust Model Predictive Control via Uncertainty Cancellation [25.736296938185074]
本稿では,動的に重要な不確かさを補う学習に基づく頑健な予測制御アルゴリズムを提案する。
我々は、一定の等価な「推定とキャンセル」制御法に着想を得た、非線形フィードバックポリシーのクラスを最適化する。
論文 参考訳(メタデータ) (2022-12-02T18:54:23Z) - Improving the Performance of Robust Control through Event-Triggered
Learning [74.57758188038375]
LQR問題における不確実性に直面していつ学習するかを決定するイベントトリガー学習アルゴリズムを提案する。
本研究では,ロバストな制御器ベースライン上での性能向上を数値例で示す。
論文 参考訳(メタデータ) (2022-07-28T17:36:37Z) - Learning Robust Output Control Barrier Functions from Safe Expert Demonstrations [50.37808220291108]
本稿では,専門家によるデモンストレーションの部分的な観察から,安全な出力フィードバック制御法を考察する。
まず,安全性を保証する手段として,ロバスト出力制御バリア関数(ROCBF)を提案する。
次に、安全なシステム動作を示す専門家による実証からROCBFを学習するための最適化問題を定式化する。
論文 参考訳(メタデータ) (2021-11-18T23:21:00Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Safe and Efficient Model-free Adaptive Control via Bayesian Optimization [39.962395119933596]
適応制御のための純粋データ駆動型モデルフリーアプローチを提案する。
システムデータのみに基づく低レベルコントローラのチューニングは、アルゴリズムの安全性と計算性能に懸念を生じさせる。
我々は,提案手法がサンプル効率であり,安全性の観点から制約ベイズ最適化よりも優れており,グリッド評価によって計算された性能オプティマを達成することを数値的に示す。
論文 参考訳(メタデータ) (2021-01-19T19:15:00Z) - Learning Robust Hybrid Control Barrier Functions for Uncertain Systems [68.30783663518821]
我々は,ロバストな安全を確保する制御則を合成する手段として,ロバストなハイブリッド制御障壁関数を提案する。
この概念に基づき,データからロバストなハイブリッド制御障壁関数を学習するための最適化問題を定式化する。
我々の技術は、モデル不確実性の対象となるコンパス歩行歩行者の魅力領域を安全に拡張することを可能にする。
論文 参考訳(メタデータ) (2021-01-16T17:53:35Z) - Enforcing robust control guarantees within neural network policies [76.00287474159973]
本稿では、ニューラルネットワークによってパラメータ化され、ロバスト制御と同じ証明可能なロバスト性基準を適用した、一般的な非線形制御ポリシークラスを提案する。
提案手法は,複数の領域において有効であり,既存のロバスト制御法よりも平均ケース性能が向上し,(非ロバスト)深部RL法よりも最悪のケース安定性が向上した。
論文 参考訳(メタデータ) (2020-11-16T17:14:59Z) - Model-Reference Reinforcement Learning Control of Autonomous Surface
Vehicles with Uncertainties [1.7033108359337459]
提案した制御は,従来の制御手法と深層強化学習を組み合わせたものである。
強化学習により,不確かさのモデリングを補うための制御法を直接学習することができる。
従来の深層強化学習法と比較して,提案した学習に基づく制御は安定性を保証し,サンプル効率を向上することができる。
論文 参考訳(メタデータ) (2020-03-30T22:02:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。