論文の概要: safe-control-gym: a Unified Benchmark Suite for Safe Learning-based
Control and Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2109.06325v1
- Date: Mon, 13 Sep 2021 21:09:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 15:23:25.708783
- Title: safe-control-gym: a Unified Benchmark Suite for Safe Learning-based
Control and Reinforcement Learning
- Title(参考訳): safe-control-gym: 安全な学習に基づく制御と強化学習のための統一ベンチマークスイート
- Authors: Zhaocong Yuan, Adam W. Hall, Siqi Zhou, Lukas Brunke, Melissa Greeff,
Jacopo Panerati, Angela P. Schoellig (University of Toronto Institute for
Aerospace Studies, University of Toronto Robotics Institute, Vector Institute
for Artificial Intelligence)
- Abstract要約: 我々はSafe-control-gymと呼ばれるオープンソースのベンチマークスイートを提案する。
当社の出発点はOpenAIのGym APIで、強化学習研究における事実上の標準のひとつです。
制御性能, データの効率, 安全性を定量的に比較するために, 安全な制御ジャムをどう使うかを示す。
- 参考スコア(独自算出の注目度): 3.9258421820410225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, reinforcement learning and learning-based control -- as well
as the study of their safety, crucial for deployment in real-world robots --
have gained significant traction. However, to adequately gauge the progress and
applicability of new results, we need the tools to equitably compare the
approaches proposed by the controls and reinforcement learning communities.
Here, we propose a new open-source benchmark suite, called safe-control-gym.
Our starting point is OpenAI's Gym API, which is one of the de facto standard
in reinforcement learning research. Yet, we highlight the reasons for its
limited appeal to control theory researchers -- and safe control, in
particular. E.g., the lack of analytical models and constraint specifications.
Thus, we propose to extend this API with (i) the ability to specify (and query)
symbolic models and constraints and (ii) introduce simulated disturbances in
the control inputs, measurements, and inertial properties. We provide
implementations for three dynamic systems -- the cart-pole, 1D, and 2D
quadrotor -- and two control tasks -- stabilization and trajectory tracking. To
demonstrate our proposal -- and in an attempt to bring research communities
closer together -- we show how to use safe-control-gym to quantitatively
compare the control performance, data efficiency, and safety of multiple
approaches from the areas of traditional control, learning-based control, and
reinforcement learning.
- Abstract(参考訳): 近年では、強化学習と学習に基づく制御、および現実世界のロボットへの配備に不可欠な安全性の研究が大きな注目を集めている。
しかし,新しい成果の進歩と妥当性を適切に評価するには,コントロールと強化学習コミュニティが提案するアプローチを公平に比較するツールが必要である。
ここでは,safe-control-gymと呼ばれる新しいオープンソースベンチマークスイートを提案する。
当社の出発点はOpenAIのGym APIで、強化学習研究における事実上の標準のひとつです。
しかし、我々は、制御理論研究者に限定的に訴える理由、特に安全な制御について強調する。
例えば、分析モデルや制約仕様の欠如などです。
したがって、我々はこのAPIを拡張することを提案する。
(i)象徴的モデル及び制約を指定(及び問合せ)する能力
(ii)制御入力、測定、慣性特性に模擬外乱を導入する。
我々は,3つの動的システム – カートポール,1D,2Dクオータ – と2つの制御タスク – 安定化と軌道追跡 – の実装を提供する。
提案を実証するために,従来の制御,学習ベースの制御,強化学習といった分野から,複数のアプローチの制御性能,データ効率,安全性を定量的に比較するために,安全な制御ジャムを使用する方法を示す。
関連論文リスト
- Reinforcement Learning with Ensemble Model Predictive Safety
Certification [2.658598582858331]
教師なし探索は、安全クリティカルなタスクに強化学習アルゴリズムを配置することを防ぐ。
本稿では,モデルに基づく深層強化学習と管型モデル予測制御を組み合わせた新しいアルゴリズムを提案する。
以上の結果から,従来の強化学習法に比べて制約違反が著しく少ないことが示唆された。
論文 参考訳(メタデータ) (2024-02-06T17:42:39Z) - Controlgym: Large-Scale Control Environments for Benchmarking Reinforcement Learning Algorithms [5.7648266677851865]
我々は、36の産業制御設定と10の無限次元偏微分方程式(PDE)に基づく制御問題からなる制御ギームを導入する。
controlgymはOpenAI Gym/Gymnasiumフレームワークに統合されている。
論文 参考訳(メタデータ) (2023-11-30T17:34:05Z) - In-Distribution Barrier Functions: Self-Supervised Policy Filters that
Avoid Out-of-Distribution States [84.24300005271185]
本稿では,任意の参照ポリシーをラップした制御フィルタを提案する。
本手法は、トップダウンとエゴセントリックの両方のビュー設定を含むシミュレーション環境における2つの異なるビズモータ制御タスクに有効である。
論文 参考訳(メタデータ) (2023-01-27T22:28:19Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Sparsity in Partially Controllable Linear Systems [56.142264865866636]
本研究では, 部分制御可能な線形力学系について, 基礎となる空間パターンを用いて検討する。
最適制御には無関係な状態変数を特徴付ける。
論文 参考訳(メタデータ) (2021-10-12T16:41:47Z) - Safe Learning in Robotics: From Learning-Based Control to Safe
Reinforcement Learning [3.9258421820410225]
我々は、機械学習を用いて、不確実性の下で安全な意思決定を実現するための最近の進歩についてレビューする。
不安定なダイナミクスを学習することで、パフォーマンスを安全に向上する学習ベースの制御アプローチ。
今後数年間、ロボット学習の分野を牽引するオープンな課題をいくつか取り上げる。
論文 参考訳(メタデータ) (2021-08-13T14:22:02Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Model-Reference Reinforcement Learning for Collision-Free Tracking
Control of Autonomous Surface Vehicles [1.7033108359337459]
提案する制御アルゴリズムは,従来の制御手法と強化学習を組み合わせることで,制御精度と知性を向上させる。
強化学習により、全体トラッキングコントローラはモデルの不確実性を補償し、衝突回避を実現することができる。
論文 参考訳(メタデータ) (2020-08-17T12:15:15Z) - Data-driven Koopman Operators for Model-based Shared Control of
Human-Machine Systems [66.65503164312705]
本稿では,データ駆動型共有制御アルゴリズムを提案する。
ユーザのインタラクションに関するダイナミクスと情報は、Koopman演算子を使用して観察から学習される。
モデルに基づく共有制御は、自然な学習やユーザのみの制御パラダイムと比較して、タスクとコントロールのメトリクスを著しく改善する。
論文 参考訳(メタデータ) (2020-06-12T14:14:07Z) - Model-Reference Reinforcement Learning Control of Autonomous Surface
Vehicles with Uncertainties [1.7033108359337459]
提案した制御は,従来の制御手法と深層強化学習を組み合わせたものである。
強化学習により,不確かさのモデリングを補うための制御法を直接学習することができる。
従来の深層強化学習法と比較して,提案した学習に基づく制御は安定性を保証し,サンプル効率を向上することができる。
論文 参考訳(メタデータ) (2020-03-30T22:02:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。