論文の概要: MRAC-RL: A Framework for On-Line Policy Adaptation Under Parametric
Model Uncertainty
- arxiv url: http://arxiv.org/abs/2011.10562v1
- Date: Fri, 20 Nov 2020 18:55:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 06:50:54.707405
- Title: MRAC-RL: A Framework for On-Line Policy Adaptation Under Parametric
Model Uncertainty
- Title(参考訳): MRAC-RL:パラメトリックモデル不確実性を考慮したオンライン政策適応フレームワーク
- Authors: Anubhav Guha and Anuradha Annaswamy
- Abstract要約: 強化学習アルゴリズムは動的システムの制御ポリシーの開発に成功している。
本稿では,線形および非線形の幅広いシステムに適用可能な新しいMRACアルゴリズムを提案する。
MRAC-RLアプローチは制御ポリシの開発において最先端のRLアルゴリズムを改善することを実証する。
- 参考スコア(独自算出の注目度): 0.34265828682659694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) algorithms have been successfully used to develop
control policies for dynamical systems. For many such systems, these policies
are trained in a simulated environment. Due to discrepancies between the
simulated model and the true system dynamics, RL trained policies often fail to
generalize and adapt appropriately when deployed in the real-world environment.
Current research in bridging this sim-to-real gap has largely focused on
improvements in simulation design and on the development of improved and
specialized RL algorithms for robust control policy generation. In this paper
we apply principles from adaptive control and system identification to develop
the model-reference adaptive control & reinforcement learning (MRAC-RL)
framework. We propose a set of novel MRAC algorithms applicable to a broad
range of linear and nonlinear systems, and derive the associated control laws.
The MRAC-RL framework utilizes an inner-loop adaptive controller that allows a
simulation-trained outer-loop policy to adapt and operate effectively in a test
environment, even when parametric model uncertainty exists. We demonstrate that
the MRAC-RL approach improves upon state-of-the-art RL algorithms in developing
control policies that can be applied to systems with modeling errors.
- Abstract(参考訳): 強化学習(RL)アルゴリズムは動的システムの制御ポリシーの開発に成功している。
多くのシステムでは、これらのポリシーはシミュレーション環境で訓練される。
シミュレーションモデルと真のシステムダイナミクスの相違により、RLのトレーニングされたポリシーは、現実の環境にデプロイされた時に、一般化と適応に失敗することが多い。
このシム・トゥ・リアルギャップのブリッジ化に関する最近の研究は、シミュレーション設計の改善と、堅牢な制御ポリシー生成のための改良された特殊RLアルゴリズムの開発に重点を置いている。
本稿では,適応制御とシステム同定の原理を適用し,モデル参照適応制御・強化学習(MRAC-RL)フレームワークを開発する。
線形および非線形の幅広いシステムに適用可能な新しいMRACアルゴリズムのセットを提案し、関連する制御法則を導出する。
MRAC-RLフレームワークは、パラメトリックモデルの不確実性が存在する場合でも、シミュレーション訓練された外ループポリシーをテスト環境で適応し、効果的に動作させることができるインナーループ適応コントローラを使用する。
MRAC-RLアプローチは、モデリングエラーのあるシステムに適用可能な制御ポリシーを開発する際に、最先端のRLアルゴリズムにより改善されることを示す。
関連論文リスト
- End-to-End Reinforcement Learning of Koopman Models for Economic
Nonlinear Model Predictive Control [50.0791489606211]
非線形モデル予測制御((e)NMPC)は、すべての状態空間領域において十分正確なシステムモデルを必要とする。
メカニスティックモデルのためのデータ駆動サロゲートモデルは、(e)NMPCの計算負担を軽減するために使用できる。
In this method for end-to-end reinforcement learning of dynamic surrogate model for optimal performance in (e)NMPC applications。
論文 参考訳(メタデータ) (2023-08-03T10:21:53Z) - Efficient Learning of Voltage Control Strategies via Model-based Deep
Reinforcement Learning [9.936452412191326]
本稿では,電力系統の短期電圧安定性問題に対する緊急制御戦略を設計するためのモデルベース深部強化学習(DRL)手法を提案する。
近年, モデルフリーDRL方式の電力系統への適用が期待できるが, モデルフリー方式はサンプル効率の低下と訓練時間に悩まされている。
本稿では,Deep Neural Network(DNN)に基づく動的代理モデルを用いた新しいモデルベースDRLフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-06T02:50:53Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Robust optimal well control using an adaptive multi-grid reinforcement
learning framework [0.0]
強化学習は、堅牢な最適ウェルコントロール問題を解決するための有望なツールである。
提案するフレームワークは、最先端のモデルフリーポリシーベースのRLアルゴリズムを用いて実証される。
計算効率の顕著な向上は,提案したフレームワークを用いて,1つのファイングリッドの計算コストの約60~70%を削減した。
論文 参考訳(メタデータ) (2022-07-07T12:08:57Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - Reinforcement Learning of Structured Control for Linear Systems with
Unknown State Matrix [0.0]
十分な安定性と性能保証と合わせて強化学習(RL)のアイデアを提示する。
このフレームワークによって実現される特別な制御構造は、多くの大規模サイバー物理システムで必要とされる分散学習制御である。
論文 参考訳(メタデータ) (2020-11-02T17:04:34Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z) - Mixed Reinforcement Learning with Additive Stochastic Uncertainty [19.229447330293546]
強化学習 (Reinforcement Learning, RL) 法は、しばしば最適なポリシーを探索するための大規模な探索データに依存し、サンプリング効率の低下に悩まされる。
本稿では, 環境力学の2つの表現を同時に利用して, 最適ポリシーを探索する混合RLアルゴリズムを提案する。
混合RLの有効性は、非アフィン非線形系の典型的な最適制御問題によって実証される。
論文 参考訳(メタデータ) (2020-02-28T08:02:34Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。