論文の概要: GoSafe: Globally Optimal Safe Robot Learning
- arxiv url: http://arxiv.org/abs/2105.13281v1
- Date: Thu, 27 May 2021 16:27:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-28 15:57:18.298307
- Title: GoSafe: Globally Optimal Safe Robot Learning
- Title(参考訳): GoSafe:グローバルに最適な安全なロボット学習
- Authors: Dominik Baumann and Alonso Marco and Matteo Turchetta and Sebastian
Trimpe
- Abstract要約: SafeOptは効率的なベイズ最適化アルゴリズムであり、高い確率で安全性を確保しながらポリシーを学習することができる。
本手法は, 安全性を高い確率で保証しつつ, 初期安全区域の外を探索することによって拡張する。
ハードウェア実験において,グローバルな最適化へのコンバージェンスを保証する条件を導出し,GoSafeを検証する。
- 参考スコア(独自算出の注目度): 11.77348161331335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When learning policies for robotic systems from data, safety is a major
concern, as violation of safety constraints may cause hardware damage. SafeOpt
is an efficient Bayesian optimization (BO) algorithm that can learn policies
while guaranteeing safety with high probability. However, its search space is
limited to an initially given safe region. We extend this method by exploring
outside the initial safe area while still guaranteeing safety with high
probability. This is achieved by learning a set of initial conditions from
which we can recover safely using a learned backup controller in case of a
potential failure. We derive conditions for guaranteed convergence to the
global optimum and validate GoSafe in hardware experiments.
- Abstract(参考訳): データからロボットシステムのポリシーを学ぶ際には、安全上の制約がハードウェアにダメージを与える可能性があるため、安全性が大きな懸念事項である。
SafeOptは、安全性を高い確率で保証しながらポリシーを学習できる効率的なベイズ最適化(BO)アルゴリズムである。
しかし、その検索空間は当初与えられた安全な領域に限定されている。
我々は,安全を高い確率で保証しつつ,初期安全領域の外側を探索することにより,この手法を拡張する。
これは、潜在的な障害が発生した場合、学習したバックアップコントローラを使用して安全に回復できる一連の初期条件を学習することによって達成される。
ハードウェア実験において,グローバルな最適化への収束を保証する条件を導出し,GoSafeを検証する。
関連論文リスト
- Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である
安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-29T18:00:21Z) - Safety-Gymnasium: A Unified Safe Reinforcement Learning Benchmark [12.660770759420286]
本稿では,単一エージェントとマルチエージェントの両方のシナリオにおいて,安全クリティカルなタスクを含む環境スイートであるSafety-Gymnasiumを提案する。
Safe Policy Optimization (SafePO) という,最先端のSafeRLアルゴリズム16種からなるアルゴリズムのライブラリを提供する。
論文 参考訳(メタデータ) (2023-10-19T08:19:28Z) - Searching for Optimal Runtime Assurance via Reachability and
Reinforcement Learning [2.422636931175853]
あるプラントのランタイム保証システム(RTA)は、バックアップコントローラで安全性を確保しながら、信頼できないまたは実験的なコントローラの運動を可能にする。
既存のRTA設計戦略は、過度に保守的であることで知られており、原則として、安全違反につながる可能性がある。
本稿では、最適RTA設計問題を定式化し、それを解決するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-06T14:45:57Z) - ISAACS: Iterative Soft Adversarial Actor-Critic for Safety [0.9217021281095907]
この研究は、ロボットシステムのための堅牢な安全維持コントローラのスケーラブルな合成を可能にする新しいアプローチを導入する。
安全を追求するフォールバックポリシーは、モデルエラーの最悪のケースの実現を促進するために、敵の「混乱」エージェントと共同で訓練される。
学習した制御ポリシーは本質的に安全性を保証するものではないが、リアルタイムの安全フィルタを構築するために使用される。
論文 参考訳(メタデータ) (2022-12-06T18:53:34Z) - Meta-Learning Priors for Safe Bayesian Optimization [72.8349503901712]
メタ学習アルゴリズムであるF-PACOHを構築し,データ不足の設定において確実な定量化を実現する。
コアコントリビューションとして、安全に適合した事前をデータ駆動で選択するための新しいフレームワークを開発する。
ベンチマーク関数と高精度動作系において,我々のメタ学習先行が安全なBOアプローチの収束を加速することを示す。
論文 参考訳(メタデータ) (2022-10-03T08:38:38Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - GoSafeOpt: Scalable Safe Exploration for Global Optimization of
Dynamical Systems [75.22958991597069]
本研究は,高次元システムに対するグローバルな最適ポリシーを安全に発見できる最初のアルゴリズムとして,GoSafeOptを提案する。
ロボットアーム上でのモデルフリーの安全な学習方法よりも,GoSafeOptの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-01-24T10:05:44Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z) - Safe reinforcement learning for probabilistic reachability and safety
specifications: A Lyapunov-based approach [2.741266294612776]
安全運転の最大確率を学習するモデルフリー安全仕様法を提案する。
提案手法は, 各政策改善段階を抑制するための安全な政策に関して, リャプノフ関数を構築する。
安全集合と呼ばれる安全な操作範囲を決定する一連の安全なポリシーを導出する。
論文 参考訳(メタデータ) (2020-02-24T09:20:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。