論文の概要: Information Theoretic Model Predictive Q-Learning
- arxiv url: http://arxiv.org/abs/2001.02153v2
- Date: Tue, 5 May 2020 21:49:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-16 20:44:33.654501
- Title: Information Theoretic Model Predictive Q-Learning
- Title(参考訳): 情報理論モデル予測q-learning
- Authors: Mohak Bhardwaj, Ankur Handa, Dieter Fox, Byron Boots
- Abstract要約: 本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 64.74041985237105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-free Reinforcement Learning (RL) works well when experience can be
collected cheaply and model-based RL is effective when system dynamics can be
modeled accurately. However, both assumptions can be violated in real world
problems such as robotics, where querying the system can be expensive and
real-world dynamics can be difficult to model. In contrast to RL, Model
Predictive Control (MPC) algorithms use a simulator to optimize a simple policy
class online, constructing a closed-loop controller that can effectively
contend with real-world dynamics. MPC performance is usually limited by factors
such as model bias and the limited horizon of optimization. In this work, we
present a novel theoretical connection between information theoretic MPC and
entropy regularized RL and develop a Q-learning algorithm that can leverage
biased models. We validate the proposed algorithm on sim-to-sim control tasks
to demonstrate the improvements over optimal control and reinforcement learning
from scratch. Our approach paves the way for deploying reinforcement learning
algorithms on real systems in a systematic manner.
- Abstract(参考訳): モデルフリー強化学習(rl)は、経験を安価に収集でき、モデルベースのrlは、システムダイナミクスを正確にモデル化できる場合に有効である。
しかし、両方の仮定はロボット工学のような現実世界の問題に違反する可能性があり、システムへのクエリは高価であり、現実世界のダイナミクスをモデル化するのは困難である。
RLとは対照的に、モデル予測制御(MPC)アルゴリズムは、シミュレーションを使用して簡単なポリシークラスをオンラインで最適化し、実世界のダイナミクスと効果的に競合するクローズドループコントローラを構築する。
MPCの性能はモデルバイアスや最適化の限界といった要因によって制限される。
本研究では,情報理論 MPC とエントロピー正規化 RL との新たな理論的関連性を示し,バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
提案アルゴリズムをsim-to-sim制御タスクで検証し、スクラッチから最適制御と強化学習の改善を実証する。
本手法は,実システム上で強化学習アルゴリズムを体系的に展開する方法である。
関連論文リスト
- Traffic expertise meets residual RL: Knowledge-informed model-based residual reinforcement learning for CAV trajectory control [1.5361702135159845]
本稿では,知識インフォームドモデルに基づく残留強化学習フレームワークを提案する。
交通専門家の知識を仮想環境モデルに統合し、基本力学にIntelligent Driver Model(IDM)、残留力学にニューラルネットワークを使用する。
本稿では,従来の制御手法を残差RLと組み合わせて,スクラッチから学習することなく,効率的な学習と政策最適化を容易にする新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-08-30T16:16:57Z) - Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - Efficient Learning of Voltage Control Strategies via Model-based Deep
Reinforcement Learning [9.936452412191326]
本稿では,電力系統の短期電圧安定性問題に対する緊急制御戦略を設計するためのモデルベース深部強化学習(DRL)手法を提案する。
近年, モデルフリーDRL方式の電力系統への適用が期待できるが, モデルフリー方式はサンプル効率の低下と訓練時間に悩まされている。
本稿では,Deep Neural Network(DNN)に基づく動的代理モデルを用いた新しいモデルベースDRLフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-06T02:50:53Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Model-Based Reinforcement Learning with SINDy [0.0]
強化学習(RL)における物理系の非線形力学を規定する新しい手法を提案する。
本手法は,技術モデル学習アルゴリズムの状態よりもはるかに少ないトラジェクトリを用いて,基礎となるダイナミクスを発見することができることを確認した。
論文 参考訳(メタデータ) (2022-08-30T19:03:48Z) - Model Generation with Provable Coverability for Offline Reinforcement
Learning [14.333861814143718]
動的対応ポリシーによるオフライン最適化は、ポリシー学習とアウト・オブ・ディストリビューションの一般化の新しい視点を提供する。
しかし、オフライン環境での制限のため、学習したモデルは実際のダイナミクスを十分に模倣することができず、信頼性の高いアウト・オブ・ディストリビューション探索をサポートできなかった。
本研究では,実力学のカバレッジを最適化するモデルを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-01T08:34:09Z) - Real-time Neural-MPC: Deep Learning Model Predictive Control for
Quadrotors and Agile Robotic Platforms [59.03426963238452]
モデル予測制御パイプライン内の動的モデルとして,大規模で複雑なニューラルネットワークアーキテクチャを効率的に統合するフレームワークであるReal-time Neural MPCを提案する。
ニューラルネットワークを使わずに、最先端のMPCアプローチと比較して、位置追跡誤差を最大82%削減することで、実世界の問題に対する我々のフレームワークの実現可能性を示す。
論文 参考訳(メタデータ) (2022-03-15T09:38:15Z) - MRAC-RL: A Framework for On-Line Policy Adaptation Under Parametric
Model Uncertainty [0.34265828682659694]
強化学習アルゴリズムは動的システムの制御ポリシーの開発に成功している。
本稿では,線形および非線形の幅広いシステムに適用可能な新しいMRACアルゴリズムを提案する。
MRAC-RLアプローチは制御ポリシの開発において最先端のRLアルゴリズムを改善することを実証する。
論文 参考訳(メタデータ) (2020-11-20T18:55:53Z) - Efficient Model-Based Reinforcement Learning through Optimistic Policy
Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。
我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文 参考訳(メタデータ) (2020-06-15T18:37:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。