論文の概要: Reinforcement Learning based Design of Linear Fixed Structure
Controllers
- arxiv url: http://arxiv.org/abs/2005.04537v1
- Date: Sun, 10 May 2020 00:53:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 02:13:30.174444
- Title: Reinforcement Learning based Design of Linear Fixed Structure
Controllers
- Title(参考訳): 強化学習に基づく線形固定構造制御器の設計
- Authors: Nathan P. Lawrence, Gregory E. Stewart, Philip D. Loewen, Michael G.
Forbes, Johan U. Backstrom, R. Bhushan Gopaluni
- Abstract要約: 線形固定構造制御器をチューニングするために,ランダム探索に基づく単純な有限差分法を提案する。
本アルゴリズムは,システムの全閉ループステップ応答で動作し,所望の閉ループ応答に対するPIDゲインを反復的に改善する。
- 参考スコア(独自算出の注目度): 3.131740922192114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning has been successfully applied to the problem of tuning
PID controllers in several applications. The existing methods often utilize
function approximation, such as neural networks, to update the controller
parameters at each time-step of the underlying process. In this work, we
present a simple finite-difference approach, based on random search, to tuning
linear fixed-structure controllers. For clarity and simplicity, we focus on PID
controllers. Our algorithm operates on the entire closed-loop step response of
the system and iteratively improves the PID gains towards a desired closed-loop
response. This allows for embedding stability requirements into the reward
function without any modeling procedures.
- Abstract(参考訳): 複数のアプリケーションにおけるPIDコントローラのチューニング問題に対して強化学習がうまく適用されている。
既存の手法では、ニューラルネットワークなどの関数近似を利用して、基盤となるプロセスの各時間ステップでコントローラパラメータを更新することが多い。
本研究では,ランダム探索に基づく単純な有限差分法を提案し,線形固定構造コントローラのチューニングを行う。
明確さとシンプルさのために、私たちはPIDコントローラにフォーカスします。
本アルゴリズムは,システムの全閉ループステップ応答で動作し,所望の閉ループ応答に対するPIDゲインを反復的に改善する。
これにより、モデリング手順なしで、安定性要求を報酬関数に組み込むことができる。
関連論文リスト
- Continual Model-based Reinforcement Learning for Data Efficient Wireless Network Optimisation [73.04087903322237]
制御ポリシの継続強化学習としてスループット最適化を定式化する。
シミュレーションの結果,提案システムでは,エンド・ツー・エンドのデプロイメントのリードタイムを2倍に短縮できることがわかった。
論文 参考訳(メタデータ) (2024-04-30T11:23:31Z) - Parameter-Adaptive Approximate MPC: Tuning Neural-Network Controllers without Retraining [50.00291020618743]
この研究は、大規模なデータセットを再計算し、再トレーニングすることなくオンラインチューニングが可能な、新しいパラメータ適応型AMPCアーキテクチャを導入している。
資源制約の厳しいマイクロコントローラ(MCU)を用いた2種類の実カートポールシステムの揺らぎを制御し,パラメータ適応型AMPCの有効性を示す。
これらの貢献は、現実世界のシステムにおけるAMPCの実践的応用に向けた重要な一歩である。
論文 参考訳(メタデータ) (2024-04-08T20:02:19Z) - ReACT: Reinforcement Learning for Controller Parametrization using
B-Spline Geometries [0.0]
本研究は,N次元B-スプライン測地(BSG)を用いた深部強化学習(DRL)を用いた新しいアプローチを提案する。
本稿では,操作条件に依存する複雑な振る舞いを持つシステムのクラスであるパラメータ変量システムの制御に焦点をあてる。
多数の動作条件に依存するコントローラパラメータをマッピングするために,BSGを導入し,適応処理をより効率的にする。
論文 参考訳(メタデータ) (2024-01-10T16:27:30Z) - Self-Tuning PID Control via a Hybrid Actor-Critic-Based Neural Structure
for Quadcopter Control [0.0]
Proportional-Integrator-Derivative (PID) コントローラは、幅広い産業および実験プロセスで使用されている。
モデルパラメータの不確実性と外乱のため、Quadrotorsのような実際のシステムはより堅牢で信頼性の高いPIDコントローラを必要とする。
本研究では,Reinforcement-Learning-based Neural Networkを用いた自己調整型PIDコントローラについて検討した。
論文 参考訳(メタデータ) (2023-07-03T19:35:52Z) - Performance-Driven Controller Tuning via Derivative-Free Reinforcement
Learning [6.5158195776494]
我々は,新しい微分自由強化学習フレームワークを用いて,制御器のチューニング問題に取り組む。
我々は,PIDコントローラを用いた適応走行制御とMPCコントローラを用いた軌道追跡という,自律走行による2つの具体例に関する数値実験を行った。
実験の結果,提案手法は一般的なベースラインよりも優れており,コントローラチューニングの強い可能性を強調している。
論文 参考訳(メタデータ) (2022-09-11T13:01:14Z) - DiffLoop: Tuning PID controllers by differentiating through the feedback
loop [8.477619837043214]
本稿では,PIDチューニングとアンチ・ウィンドアップ対策について検討する。
特に、コスト関数を用いて、制御性能を向上させるために勾配を生成する。
論文 参考訳(メタデータ) (2021-06-19T15:26:46Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Online Reinforcement Learning Control by Direct Heuristic Dynamic
Programming: from Time-Driven to Event-Driven [80.94390916562179]
時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。
ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。
イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
論文 参考訳(メタデータ) (2020-06-16T05:51:25Z) - Optimal PID and Antiwindup Control Design as a Reinforcement Learning
Problem [3.131740922192114]
DRL制御法の解釈可能性に着目した。
特に、線形固定構造コントローラをアクター・クリティカル・フレームワークに埋め込まれた浅層ニューラルネットワークとみなす。
論文 参考訳(メタデータ) (2020-05-10T01:05:26Z) - Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-03-25T06:00:33Z) - Pontryagin Differentiable Programming: An End-to-End Learning and
Control Framework [108.4560749465701]
ポントリャーギン微分プログラミングの方法論は、幅広い種類の学習と制御タスクを解決するための統一されたフレームワークを確立する。
本研究では, PDP の逆強化学習, システム識別, 制御・計画の3つの学習モードについて検討する。
マルチリンクロボットアーム,6-DoFオペレーティングクオーロレータ,6-DoFロケット搭載着陸など,多次元システムにおける学習モード毎のPDPの能力を示す。
論文 参考訳(メタデータ) (2019-12-30T15:35:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。