Fugu-MT 論文翻訳(概要): MRAC-RL: A Framework for On-Line Policy Adaptation Under Parametric Model Uncertainty

論文の概要: MRAC-RL: A Framework for On-Line Policy Adaptation Under Parametric Model Uncertainty

arxiv url: http://arxiv.org/abs/2011.10562v1
Date: Fri, 20 Nov 2020 18:55:53 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-23 06:50:54.707405
Title: MRAC-RL: A Framework for On-Line Policy Adaptation Under Parametric Model Uncertainty
Title（参考訳）: MRAC-RL:パラメトリックモデル不確実性を考慮したオンライン政策適応フレームワーク
Authors: Anubhav Guha and Anuradha Annaswamy
Abstract要約: 強化学習アルゴリズムは動的システムの制御ポリシーの開発に成功している。本稿では,線形および非線形の幅広いシステムに適用可能な新しいMRACアルゴリズムを提案する。 MRAC-RLアプローチは制御ポリシの開発において最先端のRLアルゴリズムを改善することを実証する。
参考スコア（独自算出の注目度）: 0.34265828682659694
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning (RL) algorithms have been successfully used to develop control policies for dynamical systems. For many such systems, these policies are trained in a simulated environment. Due to discrepancies between the simulated model and the true system dynamics, RL trained policies often fail to generalize and adapt appropriately when deployed in the real-world environment. Current research in bridging this sim-to-real gap has largely focused on improvements in simulation design and on the development of improved and specialized RL algorithms for robust control policy generation. In this paper we apply principles from adaptive control and system identification to develop the model-reference adaptive control & reinforcement learning (MRAC-RL) framework. We propose a set of novel MRAC algorithms applicable to a broad range of linear and nonlinear systems, and derive the associated control laws. The MRAC-RL framework utilizes an inner-loop adaptive controller that allows a simulation-trained outer-loop policy to adapt and operate effectively in a test environment, even when parametric model uncertainty exists. We demonstrate that the MRAC-RL approach improves upon state-of-the-art RL algorithms in developing control policies that can be applied to systems with modeling errors.
Abstract（参考訳）: 強化学習(RL)アルゴリズムは動的システムの制御ポリシーの開発に成功している。多くのシステムでは、これらのポリシーはシミュレーション環境で訓練される。シミュレーションモデルと真のシステムダイナミクスの相違により、RLのトレーニングされたポリシーは、現実の環境にデプロイされた時に、一般化と適応に失敗することが多い。このシム・トゥ・リアルギャップのブリッジ化に関する最近の研究は、シミュレーション設計の改善と、堅牢な制御ポリシー生成のための改良された特殊RLアルゴリズムの開発に重点を置いている。本稿では,適応制御とシステム同定の原理を適用し,モデル参照適応制御・強化学習(MRAC-RL)フレームワークを開発する。線形および非線形の幅広いシステムに適用可能な新しいMRACアルゴリズムのセットを提案し、関連する制御法則を導出する。 MRAC-RLフレームワークは、パラメトリックモデルの不確実性が存在する場合でも、シミュレーション訓練された外ループポリシーをテスト環境で適応し、効果的に動作させることができるインナーループ適応コントローラを使用する。 MRAC-RLアプローチは、モデリングエラーのあるシステムに適用可能な制御ポリシーを開発する際に、最先端のRLアルゴリズムにより改善されることを示す。

関連論文リスト

On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning [50.856589224454055]
政策勾配アルゴリズムは大規模言語モデル(LLM)の推論能力の向上に成功している。オンライン強化学習環境におけるKL正規化政策勾配法を導出・解析するためのフレームワークである正則化政策勾配(RPG)を提案する。 RPGは、GRPO、REINFORCE++、DAPOといった強力なベースラインと比較して、トレーニングの安定性とパフォーマンスの面で改善あるいは競争力のある結果を示している。
論文参考訳（メタデータ） (2025-05-23T06:01:21Z)
Model-based controller assisted domain randomization in deep reinforcement learning: application to nonlinear powertrain control [0.0]
本研究では, 深部強化学習(DRL)の枠組みを用いた新しいロバスト制御手法を提案する。問題設定は、不確実性と非線形性を考慮した制御系に対して、バニラMDPの集合である潜在マルコフ決定プロセス(LMDP)を介してモデル化される。従来のDRLベースの制御と比較して、提案するコントローラ設計はより賢く、高度な一般化能力を実現することができる。
論文参考訳（メタデータ） (2025-04-28T12:09:07Z)
Distilling Reinforcement Learning Algorithms for In-Context Model-Based Planning [39.53836535326121]
In-context Model-based RL frameworkであるDistillation for In-Context Planning (DICP)を提案する。以上の結果から,DICPはベースラインよりも環境相互作用を著しく少なく抑えながら,最先端の性能を実現することが示唆された。
論文参考訳（メタデータ） (2025-02-26T10:16:57Z)
Comparison of Model Predictive Control and Proximal Policy Optimization for a 1-DOF Helicopter System [0.7499722271664147]
本研究は,Quanser Aero 2システムに適用された深層強化学習(DRL)アルゴリズムであるモデル予測制御(MPC)とPPOの比較分析を行う。 PPOは上昇時間と適応性に優れており、迅速な応答と適応性を必要とするアプリケーションには有望なアプローチである。
論文参考訳（メタデータ） (2024-08-28T08:35:34Z)
Reinforcement Learning with Model Predictive Control for Highway Ramp Metering [14.389086937116582]
この研究は、交通フロー管理を強化するためのモデルベースと学習ベースの戦略の相乗効果について考察する。制御問題は、適切なステージコスト関数を作成することにより、RLタスクとして定式化される。 RLアルゴリズムの関数近似として MPC 最適問題を利用する MPC ベースの RL アプローチを提案し,オンランプの効率的な制御について検討した。
論文参考訳（メタデータ） (2023-11-15T09:50:54Z)
Data-Efficient Task Generalization via Probabilistic Model-based Meta Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文参考訳（メタデータ） (2023-11-13T18:51:57Z)
Efficient Learning of Voltage Control Strategies via Model-based Deep Reinforcement Learning [9.936452412191326]
本稿では,電力系統の短期電圧安定性問題に対する緊急制御戦略を設計するためのモデルベース深部強化学習(DRL)手法を提案する。近年, モデルフリーDRL方式の電力系統への適用が期待できるが, モデルフリー方式はサンプル効率の低下と訓練時間に悩まされている。本稿では,Deep Neural Network(DNN)に基づく動的代理モデルを用いた新しいモデルベースDRLフレームワークを提案する。
論文参考訳（メタデータ） (2022-12-06T02:50:53Z)
A Unified Framework for Alternating Offline Model Training and Policy Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文参考訳（メタデータ） (2022-10-12T04:58:51Z)
Robust optimal well control using an adaptive multi-grid reinforcement learning framework [0.0]
強化学習は、堅牢な最適ウェルコントロール問題を解決するための有望なツールである。提案するフレームワークは、最先端のモデルフリーポリシーベースのRLアルゴリズムを用いて実証される。計算効率の顕著な向上は,提案したフレームワークを用いて,1つのファイングリッドの計算コストの約60～70%を削減した。
論文参考訳（メタデータ） (2022-07-07T12:08:57Z)
Policy Search for Model Predictive Control with Application to Agile Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文参考訳（メタデータ） (2021-12-07T17:39:24Z)
MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文参考訳（メタデータ） (2020-05-27T08:46:41Z)
Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文参考訳（メタデータ） (2020-02-22T10:15:53Z)
Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文参考訳（メタデータ） (2019-12-31T00:29:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。