論文の概要: Improved Robustness of Deep Reinforcement Learning for Control of Time-Varying Systems by Bounded Extremum Seeking
- arxiv url: http://arxiv.org/abs/2510.02490v1
- Date: Thu, 02 Oct 2025 18:53:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.135816
- Title: Improved Robustness of Deep Reinforcement Learning for Control of Time-Varying Systems by Bounded Extremum Seeking
- Title(参考訳): 境界極限探索による時間変化系の制御のための深部強化学習のロバスト性の改善
- Authors: Shaifalee Saxena, Alan Williams, Rafael Fierro, Alexander Scheinker,
- Abstract要約: 深部強化学習制御器の頑健性を改善するため,頑健なモデル独立有界限界探索(ES)フィードバック制御について検討した。
ロスアラモス中性子科学センター線形粒子加速器における低エネルギービーム輸送部の自動チューニングのための一般時変系とES-DRL制御器の数値的研究を行った。
- 参考スコア(独自算出の注目度): 39.407739937584104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the use of robust model independent bounded extremum seeking (ES) feedback control to improve the robustness of deep reinforcement learning (DRL) controllers for a class of nonlinear time-varying systems. DRL has the potential to learn from large datasets to quickly control or optimize the outputs of many-parameter systems, but its performance degrades catastrophically when the system model changes rapidly over time. Bounded ES can handle time-varying systems with unknown control directions, but its convergence speed slows down as the number of tuned parameters increases and, like all local adaptive methods, it can get stuck in local minima. We demonstrate that together, DRL and bounded ES result in a hybrid controller whose performance exceeds the sum of its parts with DRL taking advantage of historical data to learn how to quickly control a many-parameter system to a desired setpoint while bounded ES ensures its robustness to time variations. We present a numerical study of a general time-varying system and a combined ES-DRL controller for automatic tuning of the Low Energy Beam Transport section at the Los Alamos Neutron Science Center linear particle accelerator.
- Abstract(参考訳): 本稿では, 非線形時間変化系のクラスに対する深部強化学習(DRL)制御の堅牢性向上のために, 頑健なモデル独立有界極限探索(ES)フィードバック制御を用いて検討する。
DRLは大規模データセットから学習し、多パラメータシステムの出力を迅速に制御または最適化する能力を持っているが、システムモデルが時間とともに急速に変化すると、その性能は壊滅的に低下する。
境界ESは制御方向が不明な時間変化系を扱うことができるが、その収束速度は調整されたパラメータの数が増加するにつれて遅くなり、局所的適応法と同様に局所的なミニマで立ち往生する。
我々は,DRL と有界ES を併用すると,DRL が履歴データを利用して,複数のパラメータ系を所望の集合点へ迅速に制御する方法を学習し,実時間変動に対するロバスト性を確保するハイブリッドコントローラが得られることを示した。
ロスアラモス中性子科学センター線形粒子加速器における低エネルギービーム輸送部の自動チューニングのための一般時変系とES-DRL制御器の数値的研究を行った。
関連論文リスト
- Model-based controller assisted domain randomization in deep reinforcement learning: application to nonlinear powertrain control [0.0]
本研究では, 深部強化学習(DRL)の枠組みを用いた新しいロバスト制御手法を提案する。
問題設定は、不確実性と非線形性を考慮した制御系に対して、バニラMDPの集合である潜在マルコフ決定プロセス(LMDP)を介してモデル化される。
従来のDRLベースの制御と比較して、提案するコントローラ設計はより賢く、高度な一般化能力を実現することができる。
論文 参考訳(メタデータ) (2025-04-28T12:09:07Z) - Robust Quantum Control using Reinforcement Learning from Demonstration [13.321147424579065]
システムモデルで生成された制御シーケンスを活用するために,Reinforcement Learning from Demonstration (RLfD) を用いる。
このアプローチはサンプル数を減らしてサンプル効率を高めることができ、トレーニング時間を著しく短縮することができる。
我々はRLfD法を用いて複数の高忠実度非古典状態の生成をシミュレートした。
論文 参考訳(メタデータ) (2025-03-27T02:01:28Z) - Iterative Learning Control of Fast, Nonlinear, Oscillatory Dynamics (Preprint) [0.0]
非線形でカオス的で、しばしばアクティブな制御方式では速すぎる。
そこで我々は,反復的,軌道最適化,パラメータ調整による代替能動制御システムを開発した。
特定の要件を満たす限り、コントローラは情報不足や制御不能なパラメータに対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-05-30T13:27:17Z) - Compressing Deep Reinforcement Learning Networks with a Dynamic
Structured Pruning Method for Autonomous Driving [63.155562267383864]
深部強化学習(DRL)は複雑な自律運転シナリオにおいて顕著な成功を収めている。
DRLモデルは、必然的に高いメモリ消費と計算をもたらし、リソース限定の自動運転デバイスへの広範な展開を妨げる。
そこで本研究では,DRLモデルの非重要なニューロンを段階的に除去する,新しい動的構造化プルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-02-07T09:00:30Z) - Real-Time Model-Free Deep Reinforcement Learning for Force Control of a
Series Elastic Actuator [56.11574814802912]
最先端のロボットアプリケーションは、歩行、揚力、操作などの複雑なタスクを達成するために、閉ループ力制御を備えた連続弾性アクチュエータ(SEAs)を使用する。
モデルフリーPID制御法はSEAの非線形性により不安定になりやすい。
深層強化学習は連続制御タスクに有効なモデルレス手法であることが証明されている。
論文 参考訳(メタデータ) (2023-04-11T00:51:47Z) - Performance-Driven Controller Tuning via Derivative-Free Reinforcement
Learning [6.5158195776494]
我々は,新しい微分自由強化学習フレームワークを用いて,制御器のチューニング問題に取り組む。
我々は,PIDコントローラを用いた適応走行制御とMPCコントローラを用いた軌道追跡という,自律走行による2つの具体例に関する数値実験を行った。
実験の結果,提案手法は一般的なベースラインよりも優れており,コントローラチューニングの強い可能性を強調している。
論文 参考訳(メタデータ) (2022-09-11T13:01:14Z) - Improving the Performance of Robust Control through Event-Triggered
Learning [74.57758188038375]
LQR問題における不確実性に直面していつ学習するかを決定するイベントトリガー学習アルゴリズムを提案する。
本研究では,ロバストな制御器ベースライン上での性能向上を数値例で示す。
論文 参考訳(メタデータ) (2022-07-28T17:36:37Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-03-25T06:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。