論文の概要: Safe Deep Model-Based Reinforcement Learning with Lyapunov Functions
- arxiv url: http://arxiv.org/abs/2405.16184v1
- Date: Sat, 25 May 2024 11:21:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 00:31:06.199784
- Title: Safe Deep Model-Based Reinforcement Learning with Lyapunov Functions
- Title(参考訳): Lyapunov関数を用いた安全な深層モデルに基づく強化学習
- Authors: Harry Zhang,
- Abstract要約: 本稿では,未知のダイナミクスを用いた効率的なポリシー学習を実現するためのモデルベースRLフレームワークを提案する。
本稿では,モデルベースRLのトレーニングおよび政策学習における安全性制約を付加する新しい手法を紹介し,検討する。
- 参考スコア(独自算出の注目度): 2.50194939587674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-based Reinforcement Learning (MBRL) has shown many desirable properties for intelligent control tasks. However, satisfying safety and stability constraints during training and rollout remains an open question. We propose a new Model-based RL framework to enable efficient policy learning with unknown dynamics based on learning model predictive control (LMPC) framework with mathematically provable guarantees of stability. We introduce and explore a novel method for adding safety constraints for model-based RL during training and policy learning. The new stability-augmented framework consists of a neural-network-based learner that learns to construct a Lyapunov function, and a model-based RL agent to consistently complete the tasks while satisfying user-specified constraints given only sub-optimal demonstrations and sparse-cost feedback. We demonstrate the capability of the proposed framework through simulated experiments.
- Abstract(参考訳): モデルベース強化学習(MBRL)は知的制御タスクに望ましい多くの特性を示した。
しかし、トレーニングとロールアウト中に安全性と安定性の制約を満たすことは、未解決の問題である。
数学的に証明可能な安定性の保証を備えた学習モデル予測制御(LMPC)フレームワークに基づいて,未知のダイナミクスを用いた効率的なポリシー学習を実現するためのモデルベースRLフレームワークを提案する。
本稿では,モデルベースRLのトレーニングおよび政策学習における安全性制約を付加する新しい手法を紹介し,検討する。
新たな安定性向上フレームワークは、Lyapunov関数の構築を学習するニューラルネットワークベースの学習者と、モデルベースのRLエージェントによって構成される。
シミュレーション実験により,提案手法の有効性を実証する。
関連論文リスト
- Robust Model-Based Reinforcement Learning with an Adversarial Auxiliary Model [2.9109581496560044]
特定のマルコフ決定過程(MDP)で訓練するRLエージェントは、ほぼ同一のMDPでよく機能するのにしばしば苦労する。
我々は,ロバストMDPの枠組みをモデルベース設定に適用し,新しい学習遷移モデルを導入する。
実験結果から,高次元MuJoCo制御タスクにおけるポリシーロバスト性の顕著な改善が示唆された。
論文 参考訳(メタデータ) (2024-06-14T12:37:08Z) - Learning Exactly Linearizable Deep Dynamics Models [0.07366405857677226]
本稿では, 安定度, 信頼性, 信頼性を確保するために, 様々な制御理論を容易に適用可能な, 線形化可能な動的モデルの学習法を提案する。
提案手法は, 自動車エンジンのリアルタイム制御に応用され, 予測性能と制約下での安定制御が良好であることを示す。
論文 参考訳(メタデータ) (2023-11-30T05:40:55Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Neural Lyapunov Differentiable Predictive Control [2.042924346801313]
本稿では、確率的リアプノフに基づく安定性保証を備えた微分可能なプログラミングフレームワークを用いた学習に基づく予測制御手法を提案する。
この手法は、安定な力学で状態空間の領域を認証するリアプノフ関数を共同で学習する。
論文 参考訳(メタデータ) (2022-05-22T03:52:27Z) - Uncertainty-Aware Model-Based Reinforcement Learning with Application to
Autonomous Driving [2.3303341607459687]
本稿では,新しい不確実性を考慮したモデルに基づく強化学習フレームワークを提案する。
このフレームワークは適応的トランケーションアプローチに基づいて開発され、エージェントと環境モデルの間の仮想相互作用を提供する。
開発したアルゴリズムは、エンド・ツー・エンドの自動運転車制御タスクで実装され、様々な運転シナリオにおける最先端の手法と比較される。
論文 参考訳(メタデータ) (2021-06-23T06:55:14Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Constrained Model-based Reinforcement Learning with Robust Cross-Entropy
Method [30.407700996710023]
本稿では,制約違反に対するスパースインジケータ信号を用いた制約/安全強化学習問題について検討する。
本稿では,ニューラルネットワークアンサンブルモデルを用いて予測の不確実性を推定し,モデル予測制御を基本制御フレームワークとして利用する。
その結果,本手法は現状のベースラインよりもはるかに少ない制約違反数でタスクを完了させることが判明した。
論文 参考訳(メタデータ) (2020-10-15T18:19:35Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z) - Reinforcement Learning for Safety-Critical Control under Model
Uncertainty, using Control Lyapunov Functions and Control Barrier Functions [96.63967125746747]
強化学習フレームワークは、CBFおよびCLF制約に存在するモデル不確実性を学ぶ。
RL-CBF-CLF-QPは、安全制約におけるモデル不確実性の問題に対処する。
論文 参考訳(メタデータ) (2020-04-16T10:51:33Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。