論文の概要: Safe Reinforcement Learning-Based Vibration Control: Overcoming Training Risks with LQR Guidance
- arxiv url: http://arxiv.org/abs/2510.01269v1
- Date: Mon, 29 Sep 2025 10:10:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.775421
- Title: Safe Reinforcement Learning-Based Vibration Control: Overcoming Training Risks with LQR Guidance
- Title(参考訳): 安全強化学習に基づく振動制御:LQR誘導による訓練リスクの克服
- Authors: Rohan Vitthal Thorat, Juhi Singh, Rajdip Nayek,
- Abstract要約: 構造物の振動は、乗員の安全上の危険、構造物の損傷、メンテナンスコストの増大など、重大なリスクをもたらす。
LQR(Linear Quadratic Regulator)のような従来のモデルベースの制御戦略は、振動を効果的に緩和する。
LQRとRLの両方を統合したハイブリッド制御フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Structural vibrations induced by external excitations pose significant risks, including safety hazards for occupants, structural damage, and increased maintenance costs. While conventional model-based control strategies, such as Linear Quadratic Regulator (LQR), effectively mitigate vibrations, their reliance on accurate system models necessitates tedious system identification. This tedious system identification process can be avoided by using a model-free Reinforcement learning (RL) method. RL controllers derive their policies solely from observed structural behaviour, eliminating the requirement for an explicit structural model. For an RL controller to be truly model-free, its training must occur on the actual physical system rather than in simulation. However, during this training phase, the RL controller lacks prior knowledge and it exerts control force on the structure randomly, which can potentially harm the structure. To mitigate this risk, we propose guiding the RL controller using a Linear Quadratic Regulator (LQR) controller. While LQR control typically relies on an accurate structural model for optimal performance, our observations indicate that even an LQR controller based on an entirely incorrect model outperforms the uncontrolled scenario. Motivated by this finding, we introduce a hybrid control framework that integrates both LQR and RL controllers. In this approach, the LQR policy is derived from a randomly selected model and its parameters. As this LQR policy does not require knowledge of the true or an approximate structural model the overall framework remains model-free. This hybrid approach eliminates dependency on explicit system models while minimizing exploration risks inherent in naive RL implementations. As per our knowledge, this is the first study to address the critical training safety challenge of RL-based vibration control and provide a validated solution.
- Abstract(参考訳): 外部からの励起によって引き起こされる構造振動は、乗員の安全上の危険、構造物の損傷、メンテナンスコストの増大など、重大なリスクをもたらす。
LQR(Linear Quadratic Regulator)のような従来のモデルベース制御戦略は、振動を効果的に緩和するが、正確なシステムモデルに依存しているため、面倒なシステム識別が必要である。
この退屈なシステム識別プロセスは、モデルフリー強化学習(RL)法を用いて回避することができる。
RLコントローラは、観察された構造的挙動のみからポリシーを導出し、明示的な構造的モデルの必要性を排除した。
RLコントローラが真にモデルフリーであるためには、そのトレーニングはシミュレーションではなく実際の物理システム上で行われなければならない。
しかし、このトレーニングフェーズでは、RLコントローラは事前の知識を欠き、ランダムに構造を制御し、構造を傷つける可能性がある。
このリスクを軽減するために,LQR(Linear Quadratic Regulator)コントローラを用いたRLコントローラの誘導を提案する。
LQR制御は、通常、最適性能のための正確な構造モデルに依存していますが、観測結果からは、完全に不正なモデルに基づくLQRコントローラでさえ、制御されていないシナリオよりも優れています。
この発見により、LQRとRLの両方を統合したハイブリッド制御フレームワークが導入された。
このアプローチでは、LQRポリシーはランダムに選択されたモデルとそのパラメータから導出される。
このLQRポリシーは真や近似構造モデルの知識を必要としないため、全体的なフレームワークはモデルフリーのままである。
このハイブリッドアプローチは、単純RL実装に固有の探索リスクを最小限にしつつ、明示的なシステムモデルへの依存を排除します。
我々の知る限り、この研究は、RLに基づく振動制御の重要なトレーニング安全課題に対処し、検証されたソリューションを提供する最初の研究である。
関連論文リスト
- Model-based controller assisted domain randomization in deep reinforcement learning: application to nonlinear powertrain control [0.0]
本研究では, 深部強化学習(DRL)の枠組みを用いた新しいロバスト制御手法を提案する。
問題設定は、不確実性と非線形性を考慮した制御系に対して、バニラMDPの集合である潜在マルコフ決定プロセス(LMDP)を介してモデル化される。
従来のDRLベースの制御と比較して、提案するコントローラ設計はより賢く、高度な一般化能力を実現することができる。
論文 参考訳(メタデータ) (2025-04-28T12:09:07Z) - Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator [50.191655141020505]
強化学習(Reinforcement Learning, RL)は、ロボット制御において目覚ましい能力を示してきたが、高いサンプルの複雑さ、安全性の懸念、そしてシム・トゥ・リアルのギャップのため、依然として困難である。
物理シミュレータに頼らずに政策学習を改善するために不確実性を明示的に推定するモデルベースアプローチであるオフラインロボット世界モデル(RWM-O)を導入する。
論文 参考訳(メタデータ) (2025-04-23T12:58:15Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Bridging Model-based Safety and Model-free Reinforcement Learning
through System Identification of Low Dimensional Linear Models [16.511440197186918]
モデルベース安全性とモデルフリー強化学習を組み合わせた新しい手法を提案する。
閉ループ系の力学を捉えるためには,低次元の力学モデルが十分であることを示す。
検出された線形モデルは、安全クリティカルな最適制御フレームワークによる保証を提供することができることを示す。
論文 参考訳(メタデータ) (2022-05-11T22:03:18Z) - Steady-State Error Compensation in Reference Tracking and Disturbance
Rejection Problems for Reinforcement Learning-Based Control [0.9023847175654602]
強化学習(Reinforcement Learning, RL)は、自動制御アプリケーションにおける将来的なトピックである。
アクター批判に基づくRLコントローラのためのイニシアティブアクション状態拡張(IASA)が導入される。
この拡張は専門家の知識を必要とせず、アプローチモデルを無償にしておく。
論文 参考訳(メタデータ) (2022-01-31T16:29:19Z) - Regret Analysis of Learning-Based MPC with Partially-Unknown Cost
Function [5.601217969637838]
探索/探索のトレードオフは、データ駆動および適応制御において固有の課題である。
本稿では、最適制御動作の基準として、全てのシステムパラメータの完全な知識を持つ有限水平オラクルコントローラを提案する。
我々は,このオラクル有限ホライゾンコントローラに関して,低後悔を達成できる学習ベースのポリシーを開発する。
論文 参考訳(メタデータ) (2021-08-04T22:43:51Z) - RL-Controller: a reinforcement learning framework for active structural
control [0.0]
フレキシブルでスケーラブルなシミュレーション環境であるRL-Controllerを導入することで,アクティブコントローラを設計するための新しいRLベースのアプローチを提案する。
提案するフレームワークは,5階建てのベンチマークビルディングに対して,平均65%の削減率で,容易に学習可能であることを示す。
LQG 能動制御法との比較研究において,提案したモデルフリーアルゴリズムはより最適なアクチュエータ強制戦略を学習することを示した。
論文 参考訳(メタデータ) (2021-03-13T04:42:13Z) - Reinforcement Learning for Safety-Critical Control under Model
Uncertainty, using Control Lyapunov Functions and Control Barrier Functions [96.63967125746747]
強化学習フレームワークは、CBFおよびCLF制約に存在するモデル不確実性を学ぶ。
RL-CBF-CLF-QPは、安全制約におけるモデル不確実性の問題に対処する。
論文 参考訳(メタデータ) (2020-04-16T10:51:33Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。