論文の概要: Complementary Meta-Reinforcement Learning for Fault-Adaptive Control
- arxiv url: http://arxiv.org/abs/2009.12634v1
- Date: Sat, 26 Sep 2020 16:30:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 08:35:46.913812
- Title: Complementary Meta-Reinforcement Learning for Fault-Adaptive Control
- Title(参考訳): 障害適応制御のための補完的メタ強化学習
- Authors: Ibrahim Ahmed, Marcos Quinones-Grueiro, Gautam Biswas
- Abstract要約: 適応的フォールトトレラント制御は、安全でない条件や破滅的な事象に対して障害が発生すると、性能が低下する。
本稿では,その制御方針を変化する条件に迅速に適応するメタ強化学習手法を提案する。
急激な断層下での航空機の燃料輸送システムに対する我々のアプローチを評価する。
- 参考スコア(独自算出の注目度): 1.8799681615947088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Faults are endemic to all systems. Adaptive fault-tolerant control maintains
degraded performance when faults occur as opposed to unsafe conditions or
catastrophic events. In systems with abrupt faults and strict time constraints,
it is imperative for control to adapt quickly to system changes to maintain
system operations. We present a meta-reinforcement learning approach that
quickly adapts its control policy to changing conditions. The approach builds
upon model-agnostic meta learning (MAML). The controller maintains a complement
of prior policies learned under system faults. This "library" is evaluated on a
system after a new fault to initialize the new policy. This contrasts with
MAML, where the controller derives intermediate policies anew, sampled from a
distribution of similar systems, to initialize a new policy. Our approach
improves sample efficiency of the reinforcement learning process. We evaluate
our approach on an aircraft fuel transfer system under abrupt faults.
- Abstract(参考訳): 障害はすべてのシステムに固有です。
適応的フォールトトレラント制御は、安全でない条件や破滅的な事象に対して障害が発生すると、性能が低下する。
突然の故障と厳格な時間制約を持つシステムでは、制御がシステム変更に迅速に適応し、システム操作を維持することが不可欠である。
本稿では,制御方針を変化する条件に迅速に適応するメタ強化学習手法を提案する。
このアプローチはモデルに依存しないメタラーニング(MAML)に基づいている。
コントローラは、システム障害下で学んだ以前のポリシーを補完する。
この"ライブラリ"は、新しいポリシーを初期化する新しい障害の後、システム上で評価される。
これはMAMLとは対照的に、コントローラが類似したシステムの分布からサンプリングした中間ポリシーを新たに導出し、新しいポリシーを初期化する。
本手法は強化学習プロセスのサンプル効率を向上させる。
急激な断層下での航空機の燃料輸送システムに対するアプローチを評価する。
関連論文リスト
- Improving the Performance of Robust Control through Event-Triggered
Learning [74.57758188038375]
LQR問題における不確実性に直面していつ学習するかを決定するイベントトリガー学習アルゴリズムを提案する。
本研究では,ロバストな制御器ベースライン上での性能向上を数値例で示す。
論文 参考訳(メタデータ) (2022-07-28T17:36:37Z) - Actor-Critic based Improper Reinforcement Learning [61.430513757337486]
我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。
本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T05:55:02Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Learning-based vs Model-free Adaptive Control of a MAV under Wind Gust [0.2770822269241973]
未知の条件下でのナビゲーション問題は、制御分野において最も重要でよく研究されている問題の一つである。
近年のモデルフリー適応制御法は, センサフィードバックから直接植物の物理的特性を学習することにより, この依存を除去することを目的としている。
提案手法は,深い強化学習フレームワークによって頑健に調整された完全状態フィードバックコントローラからなる,概念的にシンプルな学習ベースアプローチを提案する。
論文 参考訳(メタデータ) (2021-01-29T10:13:56Z) - Performance-Weighed Policy Sampling for Meta-Reinforcement Learning [1.77898701462905]
強化モデル非依存メタラーニング(E-MAML)は、少数のトレーニング例からポリシー関数の高速収束を生成する。
E-MAMLは、以前のタスクの環境で学んだ一連のポリシーパラメータを保持する。
E-MAMLを強化学習(RL)ベースのオンラインフォールトトレラント制御スキームの開発に適用する。
論文 参考訳(メタデータ) (2020-12-10T23:08:38Z) - Runtime-Safety-Guided Policy Repair [13.038017178545728]
安全クリティカルな環境下での学習型制御政策におけるポリシー修復の問題点について検討する。
本稿では,安全コントローラが作成したランタイムデータに基づいて,トレーニング済みポリシーを修復することで,制御スイッチングを低減あるいは排除することを提案する。
論文 参考訳(メタデータ) (2020-08-17T23:31:48Z) - Fault-Tolerant Control of Degrading Systems with On-Policy Reinforcement
Learning [1.8799681615947088]
耐障害性システムに対する適応型強化学習制御手法を提案する。
オンラインとオフラインの学習は、探索とサンプル効率を改善するために組み合わせられる。
本手法の有効性を実証するため,航空機用燃料輸送システムの実験を行った。
論文 参考訳(メタデータ) (2020-08-10T20:42:59Z) - Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-03-25T06:00:33Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。