論文の概要: Safe Guaranteed Exploration for Non-linear Systems
- arxiv url: http://arxiv.org/abs/2402.06562v1
- Date: Fri, 9 Feb 2024 17:26:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 16:03:45.396469
- Title: Safe Guaranteed Exploration for Non-linear Systems
- Title(参考訳): 非線形システムの安全保証探査
- Authors: Manish Prajapat, Johannes K\"ohler, Matteo Turchetta, Andreas Krause,
Melanie N. Zeilinger
- Abstract要約: 本稿では,最適制御を用いた新しい安全な探索フレームワークを提案する。
本稿では,モデル予測制御を用いた効率的なSageMPC,SAfe保証探索手法を提案する。
自動車モデルを用いたSageMPCを用いた未知環境の安全な探索実験を行った。
- 参考スコア(独自算出の注目度): 44.2908666969021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safely exploring environments with a-priori unknown constraints is a
fundamental challenge that restricts the autonomy of robots. While safety is
paramount, guarantees on sufficient exploration are also crucial for ensuring
autonomous task completion. To address these challenges, we propose a novel
safe guaranteed exploration framework using optimal control, which achieves
first-of-its-kind results: guaranteed exploration for non-linear systems with
finite time sample complexity bounds, while being provably safe with
arbitrarily high probability. The framework is general and applicable to many
real-world scenarios with complex non-linear dynamics and unknown domains.
Based on this framework we propose an efficient algorithm, SageMPC, SAfe
Guaranteed Exploration using Model Predictive Control. SageMPC improves
efficiency by incorporating three techniques: i) exploiting a Lipschitz bound,
ii) goal-directed exploration, and iii) receding horizon style re-planning, all
while maintaining the desired sample complexity, safety and exploration
guarantees of the framework. Lastly, we demonstrate safe efficient exploration
in challenging unknown environments using SageMPC with a car model.
- Abstract(参考訳): 制約のない環境を安全に探索することは、ロボットの自律性を制限する基本的な課題である。
安全性は最重要だが、自律的なタスクの完了を保証するには十分な探索の保証も重要である。
これらの課題に対処するため,我々は,最適制御を用いた新たな安全性保証型探索フレームワークを提案する。これは,有限時間サンプル複雑性境界を持つ非線形システムの探索を保証し,任意に高い確率で確実に安全である。
このフレームワークは一般に、複雑な非線形力学と未知のドメインを持つ多くの実世界のシナリオに適用できる。
本稿では,モデル予測制御を用いた効率的なSageMPC,SAfe保証探索手法を提案する。
SageMPCは3つのテクニックを取り入れて効率を向上させる
一 リプシッツ境界を利用すること
二 目標指向の探査、及び
三 フレームワークの所望の複雑さ、安全性及び探索の保証を維持しつつ、地平線方式の再計画を撤回すること。
最後に,自動車モデルを用いたSageMPCを用いた未知環境の安全な探索実験を行った。
関連論文リスト
- Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Sample-efficient Safe Learning for Online Nonlinear Control with Control
Barrier Functions [35.9713619595494]
強化学習と連続非線形制御は、複雑なシーケンシャルな意思決定タスクの複数の領域にうまく展開されている。
学習過程の探索特性とモデル不確実性の存在を考えると、それらを安全クリティカルな制御タスクに適用することは困難である。
本稿では,オンライン制御タスクを対象とした,効率のよいエピソード型安全な学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-29T00:54:35Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Safe Exploration Incurs Nearly No Additional Sample Complexity for
Reward-free RL [43.672794342894946]
Reward-free reinforcement learning (RF-RL) は、未知の環境を探索するランダムなアクションテイクに依存する。
このような安全な探索要求が、得られた政策の計画における望ましい最適性を達成するために、対応するサンプルの複雑さにどのように影響するかは、いまだ不明である。
本稿では,Safe reWard-frEe ExploraTion (SWEET) フレームワークを提案し,Tabular-SWEET と Low-rank-SWEET というアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-28T15:00:45Z) - Provably Safe PAC-MDP Exploration Using Analogies [87.41775218021044]
安全クリティカルドメインに強化学習を適用する上での課題は、探索と安全性のバランスをとる方法を理解することだ。
我々は,未知のダイナミックスを持つMDPにおいて,確実に安全な探索を行うアルゴリズムであるAnalogous Safe-State Exploration (ASE)を提案する。
提案手法は, PAC-MDP 感覚の準最適政策を安全に学習するために, 状態-作用対間の類似性を利用する。
論文 参考訳(メタデータ) (2020-07-07T15:50:50Z) - Verifiably Safe Exploration for End-to-End Reinforcement Learning [17.401496872603943]
本稿では,視覚的入力によるエンドツーエンドポリシーの形式的安全性制約の実施に向けた最初のアプローチを提案する。
厳密な制約の存在下で安全に探索することの難しさを強調する新しいベンチマークで評価されている。
論文 参考訳(メタデータ) (2020-07-02T16:12:20Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z) - Online Mapping and Motion Planning under Uncertainty for Safe Navigation
in Unknown Environments [3.2296078260106174]
本論文は,確率論的安全保証者によるオンラインで実現可能な動作のマッピングと計画のための不確実性に基づくフレームワークを提案する。
提案手法は, 環境の不確実性を意識した環境表現を構築するために周囲をマッピングし, (i) 信念空間の多層サンプリングベースプランナーを通して, キノダイナミックに実現可能で確率論的に安全な目標に反復的に(re)計画を行うことにより, 動き, 確率論的安全性, オンライン計算制約を取り扱う。
論文 参考訳(メタデータ) (2020-04-26T08:53:37Z) - Safe reinforcement learning for probabilistic reachability and safety
specifications: A Lyapunov-based approach [2.741266294612776]
安全運転の最大確率を学習するモデルフリー安全仕様法を提案する。
提案手法は, 各政策改善段階を抑制するための安全な政策に関して, リャプノフ関数を構築する。
安全集合と呼ばれる安全な操作範囲を決定する一連の安全なポリシーを導出する。
論文 参考訳(メタデータ) (2020-02-24T09:20:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。