論文の概要: Scalable Safe Exploration for Global Optimization of Dynamical Systems
- arxiv url: http://arxiv.org/abs/2201.09562v2
- Date: Tue, 25 Jan 2022 06:47:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-26 12:14:35.971193
- Title: Scalable Safe Exploration for Global Optimization of Dynamical Systems
- Title(参考訳): 動的システムのグローバル最適化のためのスケーラブルセーフ探索
- Authors: Bhavya Sukhija, Matteo Turchetta, David Lindner, Andreas Krause,
Sebastian Trimpe, Dominik Baumann
- Abstract要約: この研究は、複雑なシステムに対してグローバルに最適なポリシーを安全に発見できる最初のアルゴリズムとして、GoSafeを提案する。
GoSafeOptは、高次元ドメインのための安全な学習方法と競合するよりも、はるかに優れたポリシーを安全に見つける。
- 参考スコア(独自算出の注目度): 75.22958991597069
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Learning optimal control policies directly on physical systems is challenging
since even a single failure can lead to costly hardware damage. Most existing
learning methods that guarantee safety, i.e., no failures, during exploration
are limited to local optima. A notable exception is the GoSafe algorithm,
which, unfortunately, cannot handle high-dimensional systems and hence cannot
be applied to most real-world dynamical systems. This work proposes GoSafeOpt
as the first algorithm that can safely discover globally optimal policies for
complex systems while giving safety and optimality guarantees. Our experiments
on a robot arm that would be prohibitive for GoSafe demonstrate that GoSafeOpt
safely finds remarkably better policies than competing safe learning methods
for high-dimensional domains.
- Abstract(参考訳): 物理システム上で最適な制御ポリシーを学習することは、単一障害でさえ高価なハードウェア損傷を引き起こす可能性があるため、難しい。
安全、すなわち、探索中の失敗を保証している既存の学習方法のほとんどは、局所的な最適化に限られている。
注目すべき例外は、GoSafeアルゴリズムであり、残念ながら高次元のシステムを扱えないため、ほとんどの実世界の力学系には適用できない。
この研究は、安全性と最適性を保証するとともに、複雑なシステムのグローバルなポリシーを安全に発見できる最初のアルゴリズムとしてGoSafeOptを提案する。
GoSafeを禁ずるロボットアームの実験では、GoSafeOptは高次元領域の安全な学習方法と競合するよりも、はるかに優れたポリシーを安全に見つけることが実証された。
関連論文リスト
- ABNet: Attention BarrierNet for Safe and Scalable Robot Learning [58.4951884593569]
バリアベースの手法は、安全なロボット学習における主要なアプローチの1つである。
本稿では,より大規模な基本安全モデルを段階的に構築するスケーラブルなAttention BarrierNet(ABNet)を提案する。
2次元ロボット障害物回避、安全なロボット操作、視覚に基づくエンドツーエンド自動運転におけるABNetの強みを実証する。
論文 参考訳(メタデータ) (2024-06-18T19:37:44Z) - Implicit Safe Set Algorithm for Provably Safe Reinforcement Learning [7.349727826230864]
DRLエージェントのセーフガードを合成するためのモデルフリー安全な制御アルゴリズムである暗黙のセーフセットアルゴリズムを提案する。
提案アルゴリズムは,ブラックボックスの動的関数を問合せするだけで,安全指標(バリア証明書)とその後の安全制御則を合成する。
提案アルゴリズムを最先端のSafety Gymベンチマークで検証し、95% pm 9%$ cumulative rewardを得た上で安全性違反をゼロにする。
論文 参考訳(メタデータ) (2024-05-04T20:59:06Z) - ISAACS: Iterative Soft Adversarial Actor-Critic for Safety [0.9217021281095907]
この研究は、ロボットシステムのための堅牢な安全維持コントローラのスケーラブルな合成を可能にする新しいアプローチを導入する。
安全を追求するフォールバックポリシーは、モデルエラーの最悪のケースの実現を促進するために、敵の「混乱」エージェントと共同で訓練される。
学習した制御ポリシーは本質的に安全性を保証するものではないが、リアルタイムの安全フィルタを構築するために使用される。
論文 参考訳(メタデータ) (2022-12-06T18:53:34Z) - Meta-Learning Priors for Safe Bayesian Optimization [72.8349503901712]
メタ学習アルゴリズムであるF-PACOHを構築し,データ不足の設定において確実な定量化を実現する。
コアコントリビューションとして、安全に適合した事前をデータ駆動で選択するための新しいフレームワークを開発する。
ベンチマーク関数と高精度動作系において,我々のメタ学習先行が安全なBOアプローチの収束を加速することを示す。
論文 参考訳(メタデータ) (2022-10-03T08:38:38Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Guided Safe Shooting: model based reinforcement learning with safety constraints [3.8490154494129327]
安全制約の最小限の違反でシステムを制御できるモデルベースのRLアプローチであるGuSS(Guid Safe Shooting)を導入する。
提案する安全プランナは3つあり,1つは単純なランダム・シューティング・ストラテジーに基づくもので,もう1つはより高度な分岐探索アルゴリズムMAP-Elitesに基づくものである。
論文 参考訳(メタデータ) (2022-06-20T12:46:35Z) - GoSafe: Globally Optimal Safe Robot Learning [11.77348161331335]
SafeOptは効率的なベイズ最適化アルゴリズムであり、高い確率で安全性を確保しながらポリシーを学習することができる。
本手法は, 安全性を高い確率で保証しつつ, 初期安全区域の外を探索することによって拡張する。
ハードウェア実験において,グローバルな最適化へのコンバージェンスを保証する条件を導出し,GoSafeを検証する。
論文 参考訳(メタデータ) (2021-05-27T16:27:47Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z) - Safe reinforcement learning for probabilistic reachability and safety
specifications: A Lyapunov-based approach [2.741266294612776]
安全運転の最大確率を学習するモデルフリー安全仕様法を提案する。
提案手法は, 各政策改善段階を抑制するための安全な政策に関して, リャプノフ関数を構築する。
安全集合と呼ばれる安全な操作範囲を決定する一連の安全なポリシーを導出する。
論文 参考訳(メタデータ) (2020-02-24T09:20:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。