論文の概要: MRAC-RL: A Framework for On-Line Policy Adaptation Under Parametric
Model Uncertainty
- arxiv url: http://arxiv.org/abs/2011.10562v1
- Date: Fri, 20 Nov 2020 18:55:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 06:50:54.707405
- Title: MRAC-RL: A Framework for On-Line Policy Adaptation Under Parametric
Model Uncertainty
- Title(参考訳): MRAC-RL:パラメトリックモデル不確実性を考慮したオンライン政策適応フレームワーク
- Authors: Anubhav Guha and Anuradha Annaswamy
- Abstract要約: 強化学習アルゴリズムは動的システムの制御ポリシーの開発に成功している。
本稿では,線形および非線形の幅広いシステムに適用可能な新しいMRACアルゴリズムを提案する。
MRAC-RLアプローチは制御ポリシの開発において最先端のRLアルゴリズムを改善することを実証する。
- 参考スコア(独自算出の注目度): 0.34265828682659694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) algorithms have been successfully used to develop
control policies for dynamical systems. For many such systems, these policies
are trained in a simulated environment. Due to discrepancies between the
simulated model and the true system dynamics, RL trained policies often fail to
generalize and adapt appropriately when deployed in the real-world environment.
Current research in bridging this sim-to-real gap has largely focused on
improvements in simulation design and on the development of improved and
specialized RL algorithms for robust control policy generation. In this paper
we apply principles from adaptive control and system identification to develop
the model-reference adaptive control & reinforcement learning (MRAC-RL)
framework. We propose a set of novel MRAC algorithms applicable to a broad
range of linear and nonlinear systems, and derive the associated control laws.
The MRAC-RL framework utilizes an inner-loop adaptive controller that allows a
simulation-trained outer-loop policy to adapt and operate effectively in a test
environment, even when parametric model uncertainty exists. We demonstrate that
the MRAC-RL approach improves upon state-of-the-art RL algorithms in developing
control policies that can be applied to systems with modeling errors.
- Abstract(参考訳): 強化学習(RL)アルゴリズムは動的システムの制御ポリシーの開発に成功している。
多くのシステムでは、これらのポリシーはシミュレーション環境で訓練される。
シミュレーションモデルと真のシステムダイナミクスの相違により、RLのトレーニングされたポリシーは、現実の環境にデプロイされた時に、一般化と適応に失敗することが多い。
このシム・トゥ・リアルギャップのブリッジ化に関する最近の研究は、シミュレーション設計の改善と、堅牢な制御ポリシー生成のための改良された特殊RLアルゴリズムの開発に重点を置いている。
本稿では,適応制御とシステム同定の原理を適用し,モデル参照適応制御・強化学習(MRAC-RL)フレームワークを開発する。
線形および非線形の幅広いシステムに適用可能な新しいMRACアルゴリズムのセットを提案し、関連する制御法則を導出する。
MRAC-RLフレームワークは、パラメトリックモデルの不確実性が存在する場合でも、シミュレーション訓練された外ループポリシーをテスト環境で適応し、効果的に動作させることができるインナーループ適応コントローラを使用する。
MRAC-RLアプローチは、モデリングエラーのあるシステムに適用可能な制御ポリシーを開発する際に、最先端のRLアルゴリズムにより改善されることを示す。
関連論文リスト
- Comparison of Model Predictive Control and Proximal Policy Optimization for a 1-DOF Helicopter System [0.7499722271664147]
本研究は,Quanser Aero 2システムに適用された深層強化学習(DRL)アルゴリズムであるモデル予測制御(MPC)とPPOの比較分析を行う。
PPOは上昇時間と適応性に優れており、迅速な応答と適応性を必要とするアプリケーションには有望なアプローチである。
論文 参考訳(メタデータ) (2024-08-28T08:35:34Z) - Reinforcement Learning with Model Predictive Control for Highway Ramp Metering [14.389086937116582]
この研究は、交通フロー管理を強化するためのモデルベースと学習ベースの戦略の相乗効果について考察する。
制御問題は、適切なステージコスト関数を作成することにより、RLタスクとして定式化される。
RLアルゴリズムの関数近似として MPC 最適問題を利用する MPC ベースの RL アプローチを提案し,オンランプの効率的な制御について検討した。
論文 参考訳(メタデータ) (2023-11-15T09:50:54Z) - Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - Efficient Learning of Voltage Control Strategies via Model-based Deep
Reinforcement Learning [9.936452412191326]
本稿では,電力系統の短期電圧安定性問題に対する緊急制御戦略を設計するためのモデルベース深部強化学習(DRL)手法を提案する。
近年, モデルフリーDRL方式の電力系統への適用が期待できるが, モデルフリー方式はサンプル効率の低下と訓練時間に悩まされている。
本稿では,Deep Neural Network(DNN)に基づく動的代理モデルを用いた新しいモデルベースDRLフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-06T02:50:53Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Robust optimal well control using an adaptive multi-grid reinforcement
learning framework [0.0]
強化学習は、堅牢な最適ウェルコントロール問題を解決するための有望なツールである。
提案するフレームワークは、最先端のモデルフリーポリシーベースのRLアルゴリズムを用いて実証される。
計算効率の顕著な向上は,提案したフレームワークを用いて,1つのファイングリッドの計算コストの約60~70%を削減した。
論文 参考訳(メタデータ) (2022-07-07T12:08:57Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。