Fugu-MT 論文翻訳(概要): Constrained Model-based Reinforcement Learning with Robust Cross-Entropy Method

論文の概要: Constrained Model-based Reinforcement Learning with Robust Cross-Entropy Method

arxiv url: http://arxiv.org/abs/2010.07968v2
Date: Sat, 6 Mar 2021 05:09:17 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-07 03:33:16.945638
Title: Constrained Model-based Reinforcement Learning with Robust Cross-Entropy Method
Title（参考訳）: ロバストクロスエントロピー法による制約付きモデルベース強化学習
Authors: Zuxin Liu, Hongyi Zhou, Baiming Chen, Sicheng Zhong, Martial Hebert, Ding Zhao
Abstract要約: 本稿では,制約違反に対するスパースインジケータ信号を用いた制約/安全強化学習問題について検討する。本稿では,ニューラルネットワークアンサンブルモデルを用いて予測の不確実性を推定し,モデル予測制御を基本制御フレームワークとして利用する。その結果,本手法は現状のベースラインよりもはるかに少ない制約違反数でタスクを完了させることが判明した。
参考スコア（独自算出の注目度）: 30.407700996710023
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper studies the constrained/safe reinforcement learning (RL) problem with sparse indicator signals for constraint violations. We propose a model-based approach to enable RL agents to effectively explore the environment with unknown system dynamics and environment constraints given a significantly small number of violation budgets. We employ the neural network ensemble model to estimate the prediction uncertainty and use model predictive control as the basic control framework. We propose the robust cross-entropy method to optimize the control sequence considering the model uncertainty and constraints. We evaluate our methods in the Safety Gym environment. The results show that our approach learns to complete the tasks with a much smaller number of constraint violations than state-of-the-art baselines. Additionally, we are able to achieve several orders of magnitude better sample efficiency when compared with constrained model-free RL approaches. The code is available at \url{https://github.com/liuzuxin/safe-mbrl}.
Abstract（参考訳）: 本稿では,制約違反に対するスパースインジケータ信号を用いた制約/安全強化学習(RL)問題について検討する。本稿では,rlエージェントが未知のシステムダイナミクスと環境制約を持つ環境を効果的に探索するためのモデルベースアプローチを提案する。予測の不確かさを推定するためにニューラルネットワークアンサンブルモデルを用い,モデル予測制御を基本制御フレームワークとして用いる。モデルの不確実性と制約を考慮した制御列の最適化のための頑健なクロスエントロピー手法を提案する。我々は安全体育館環境における方法を評価する。その結果,本手法は現状のベースラインよりもはるかに少ない制約違反数でタスクを完了させることが判明した。さらに、制約付きモデルフリーRLアプローチと比較して、サンプル効率を桁違いに向上させることができる。コードは \url{https://github.com/liuzuxin/safe-mbrl} で入手できる。

関連論文リスト

Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
正規球上の線形最小化オラクル(LMO)を利用する最適化手法について検討する。この問題の幾何学に適応するためにLMOを用いた新しいアルゴリズム群を提案し, 意外なことに, 制約のない問題に適用可能であることを示す。
論文参考訳（メタデータ） (2025-02-11T13:10:34Z)
Diffusion Predictive Control with Constraints [51.91057765703533]
制約付き拡散予測制御(DPCC) トレーニングデータから逸脱可能な、明示的な状態と行動制約を持つ拡散制御アルゴリズム。 DPCCは,学習した制御タスクの性能を維持しつつ,新しいテスト時間制約を満たす上で,既存の手法よりも優れるロボットマニピュレータのシミュレーションを通して示す。
論文参考訳（メタデータ） (2024-12-12T15:10:22Z)
Neural Internal Model Control: Learning a Robust Control Policy via Predictive Error Feedback [16.46487826869775]
本稿では,モデルベース制御とRLベース制御を統合し,ロバスト性を高めるニューラル内部モデル制御を提案する。我々のフレームワークは、剛体力学にニュートン・オイラー方程式を適用することで予測モデルを合理化し、複雑な高次元非線形性を捉える必要がなくなる。本研究では,四足歩行ロボットと四足歩行ロボットにおけるフレームワークの有効性を実証し,最先端の手法と比較して優れた性能を実現する。
論文参考訳（メタデータ） (2024-11-20T07:07:42Z)
Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文参考訳（メタデータ） (2023-10-03T10:52:21Z)
Model-Assisted Probabilistic Safe Adaptive Control With Meta-Bayesian Learning [33.75998206184497]
メタラーニング,ベイズモデル,制御バリア関数(CBF)メソッドを統合した新しい適応型安全制御フレームワークを開発した。具体的には、CBF法の助けを借りて、統一適応ベイズ線形回帰モデルにより固有不確かさと外部不確かさを学習する。新しい制御タスクのために,いくつかのサンプルを用いてメタ学習モデルを洗練し,安全制御を確保するためにCBF制約に悲観的信頼境界を導入する。
論文参考訳（メタデータ） (2023-07-03T08:16:01Z)
When to Update Your Model: Constrained Model-based Reinforcement Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文参考訳（メタデータ） (2022-10-15T17:57:43Z)
Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文参考訳（メタデータ） (2021-05-17T08:36:18Z)
Safe Continuous Control with Constrained Model-Based Policy Optimization [0.0]
制約付き高次元制御のためのモデルベースセーフ探索アルゴリズムを提案する。また、モデル生成データによるポリシー探索を高速化する実用的なアルゴリズムも導入する。
論文参考訳（メタデータ） (2021-04-14T15:20:55Z)
Model-based Safe Reinforcement Learning using Generalized Control Barrier Function [6.556257209888797]
本稿では,制約付きRLのモデルに基づく実現性向上手法を提案する。モデル情報を使用することで、実際の安全制約に違反することなく、ポリシーを安全に最適化することができる。提案手法は最大4倍の制約違反を達成し、ベースライン制約RLアプローチよりも3.36倍の速度で収束する。
論文参考訳（メタデータ） (2021-03-02T08:17:38Z)
COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文参考訳（メタデータ） (2021-02-16T18:50:32Z)
Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文参考訳（メタデータ） (2020-07-11T19:44:09Z)
Reinforcement Learning for Safety-Critical Control under Model Uncertainty, using Control Lyapunov Functions and Control Barrier Functions [96.63967125746747]
強化学習フレームワークは、CBFおよびCLF制約に存在するモデル不確実性を学ぶ。 RL-CBF-CLF-QPは、安全制約におけるモデル不確実性の問題に対処する。
論文参考訳（メタデータ） (2020-04-16T10:51:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。