論文の概要: Fault-Tolerant Control of Degrading Systems with On-Policy Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2008.04407v1
- Date: Mon, 10 Aug 2020 20:42:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 22:38:43.225420
- Title: Fault-Tolerant Control of Degrading Systems with On-Policy Reinforcement
Learning
- Title(参考訳): オンポリシー強化学習による劣化システムの耐障害性制御
- Authors: Ibrahim Ahmed, Marcos Qui\~nones-Grueiro, Gautam Biswas
- Abstract要約: 耐障害性システムに対する適応型強化学習制御手法を提案する。
オンラインとオフラインの学習は、探索とサンプル効率を改善するために組み合わせられる。
本手法の有効性を実証するため,航空機用燃料輸送システムの実験を行った。
- 参考スコア(独自算出の注目度): 1.8799681615947088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel adaptive reinforcement learning control approach for fault
tolerant control of degrading systems that is not preceded by a fault detection
and diagnosis step. Therefore, \textit{a priori} knowledge of faults that may
occur in the system is not required. The adaptive scheme combines online and
offline learning of the on-policy control method to improve exploration and
sample efficiency, while guaranteeing stable learning. The offline learning
phase is performed using a data-driven model of the system, which is frequently
updated to track the system's operating conditions. We conduct experiments on
an aircraft fuel transfer system to demonstrate the effectiveness of our
approach.
- Abstract(参考訳): 本稿では, 故障検出・診断工程に先行しない劣化系の耐故障性制御のための適応型強化学習制御手法を提案する。
したがって、システムで発生する可能性のある障害に関する \textit{a priori} の知識は不要である。
適応型スキームは、オンラインとオフラインのオンライン学習を組み合わせることで、安定した学習を保証しながら、探索とサンプル効率を改善する。
オフライン学習フェーズはシステムのデータ駆動モデルを使用して行われ、システムの動作状態を追跡するために頻繁に更新される。
本手法の有効性を実証するため,航空機用燃料輸送システムの実験を行った。
関連論文リスト
- Online Control-Informed Learning [4.907545537403502]
本稿では,リアルタイムに学習・制御タスクの幅広いクラスを解決するためのオンライン制御情報学習フレームワークを提案する。
任意のロボットを調整可能な最適制御系として考慮し,拡張カルマンフィルタ(EKF)に基づくオンラインパラメータ推定器を提案する。
提案手法は,データ中の雑音を効果的に管理することにより,学習の堅牢性も向上する。
論文 参考訳(メタデータ) (2024-10-04T21:03:16Z) - Data-Driven Adversarial Online Control for Unknown Linear Systems [17.595231077524467]
このオンライン制御問題に対処する新しいデータ駆動型オンライン適応制御アルゴリズムを提案する。
我々のアルゴリズムは、高い確率で有界な$tmO(T2/3)の後悔勾配を保証し、この問題の最もよく知られた後悔勾配と一致する。
論文 参考訳(メタデータ) (2023-08-16T04:05:22Z) - In-Distribution Barrier Functions: Self-Supervised Policy Filters that
Avoid Out-of-Distribution States [84.24300005271185]
本稿では,任意の参照ポリシーをラップした制御フィルタを提案する。
本手法は、トップダウンとエゴセントリックの両方のビュー設定を含むシミュレーション環境における2つの異なるビズモータ制御タスクに有効である。
論文 参考訳(メタデータ) (2023-01-27T22:28:19Z) - A stabilizing reinforcement learning approach for sampled systems with
partially unknown models [0.0]
純粋オンライン学習環境におけるシステム制御器閉ループの実用的安定性を保証する手法を提案する。
要求された結果を達成するため、我々は古典的な適応制御技術を採用する。
この方法は適応的なトラクション制御とクルーズ制御でテストされ、コストを大幅に削減することが判明した。
論文 参考訳(メタデータ) (2022-08-31T09:20:14Z) - Joint Differentiable Optimization and Verification for Certified
Reinforcement Learning [91.93635157885055]
安全クリティカル制御システムのためのモデルベース強化学習では,システム特性を正式に認定することが重要である。
本稿では,強化学習と形式検証を共同で行う枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-28T16:53:56Z) - Imitation Learning of Stabilizing Policies for Nonlinear Systems [1.52292571922932]
線形システムやコントローラ向けに開発された手法は,平方の和を用いて容易にコントローラに拡張できることが示されている。
予測勾配降下法とアルゴリズムの交互方向法を, 安定化模倣学習問題に対して提案する。
論文 参考訳(メタデータ) (2021-09-22T17:27:19Z) - The Impact of Data on the Stability of Learning-Based Control- Extended
Version [63.97366815968177]
本稿では,Lyapunovをベースとした,認証制御性能に対するデータの影響の定量化手法を提案する。
ガウス過程を通じて未知系の力学をモデル化することにより、モデルの不確実性と安定性条件の満足度の間の相互関係を決定できる。
論文 参考訳(メタデータ) (2020-11-20T19:10:01Z) - Learning Hybrid Control Barrier Functions from Data [66.37785052099423]
ハイブリッドシステムの安全な制御法則を得るための体系的なツールが欠如していることから,データから確実に安全な制御法則を学習するための最適化ベースのフレームワークを提案する。
特に、システムダイナミクスが知られており、安全なシステム動作を示すデータが利用可能であるような設定を仮定する。
論文 参考訳(メタデータ) (2020-11-08T23:55:02Z) - Complementary Meta-Reinforcement Learning for Fault-Adaptive Control [1.8799681615947088]
適応的フォールトトレラント制御は、安全でない条件や破滅的な事象に対して障害が発生すると、性能が低下する。
本稿では,その制御方針を変化する条件に迅速に適応するメタ強化学習手法を提案する。
急激な断層下での航空機の燃料輸送システムに対する我々のアプローチを評価する。
論文 参考訳(メタデータ) (2020-09-26T16:30:53Z) - Anticipating the Long-Term Effect of Online Learning in Control [75.6527644813815]
AntLerは、学習を予想する学習ベースの制御法則の設計アルゴリズムである。
AntLer は確率 1 と任意に最適な解を近似することを示す。
論文 参考訳(メタデータ) (2020-07-24T07:00:14Z) - Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-03-25T06:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。