論文の概要: Safe Active Dynamics Learning and Control: A Sequential
Exploration-Exploitation Framework
- arxiv url: http://arxiv.org/abs/2008.11700v4
- Date: Wed, 16 Feb 2022 03:18:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 22:32:13.891764
- Title: Safe Active Dynamics Learning and Control: A Sequential
Exploration-Exploitation Framework
- Title(参考訳): 安全なアクティブダイナミクス学習と制御:シークエンシャル探索-探索フレームワーク
- Authors: Thomas Lew, Apoorva Sharma, James Harrison, Andrew Bylard, Marco
Pavone
- Abstract要約: 本研究では,力学の不確実性の存在下での安全性を維持するための理論的に正当なアプローチを提案する。
我々のフレームワークは、常に全ての制約の高確率満足度を保証します。
この理論解析は、オンライン適応能力を改善する最終層メタラーニングモデルの2つの正則化を動機付けている。
- 参考スコア(独自算出の注目度): 30.58186749790728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safe deployment of autonomous robots in diverse scenarios requires agents
that are capable of efficiently adapting to new environments while satisfying
constraints. In this work, we propose a practical and theoretically-justified
approach to maintaining safety in the presence of dynamics uncertainty. Our
approach leverages Bayesian meta-learning with last-layer adaptation. The
expressiveness of neural-network features trained offline, paired with
efficient last-layer online adaptation, enables the derivation of tight
confidence sets which contract around the true dynamics as the model adapts
online. We exploit these confidence sets to plan trajectories that guarantee
the safety of the system. Our approach handles problems with high dynamics
uncertainty, where reaching the goal safely is potentially initially
infeasible, by first \textit{exploring} to gather data and reduce uncertainty,
before autonomously \textit{exploiting} the acquired information to safely
perform the task. Under reasonable assumptions, we prove that our framework
guarantees the high-probability satisfaction of all constraints at all times
jointly, i.e. over the total task duration. This theoretical analysis also
motivates two regularizers of last-layer meta-learning models that improve
online adaptation capabilities as well as performance by reducing the size of
the confidence sets. We extensively demonstrate our approach in simulation and
on hardware.
- Abstract(参考訳): 多様なシナリオにおける自律ロボットの安全な展開には、制約を満たしながら新しい環境に効率的に適応できるエージェントが必要となる。
本研究では,動的不確実性の存在下での安全性を維持するための実用的かつ理論的に正当なアプローチを提案する。
本手法は最終層適応によるベイズメタラーニングを活用する。
オフラインでトレーニングされたニューラルネットワーク機能の表現力は、効率的な最終層オンライン適応と組み合わせることで、モデルがオンラインに適応するにつれて真のダイナミクスの周りに収縮する厳密な信頼セットの導出を可能にします。
このような信頼性セットを,システムの安全性を保証する軌道計画に活用する。
提案手法は,まずデータ収集と不確実性を低減するために,まずは「textit{exploit}」を用いて,得られた情報を自律的に「textit{exploit}」でタスクを安全に実行する。
合理的な仮定では、我々の枠組みは、全ての制約が常に常に高い確率で満足することを保証している。
この理論解析はまた、信頼セットのサイズを小さくすることで、オンライン適応能力を向上させるラスト層メタラーニングモデルの2つの正規化子を動機付けている。
我々はシミュレーションとハードウェアで我々のアプローチを広く実証している。
関連論文リスト
- FOSP: Fine-tuning Offline Safe Policy through World Models [3.7971075341023526]
モデルに基づく強化学習(RL)は、高次元タスクを扱う訓練効率と能力を示した。
しかしながら、以前の作業は、実際のデプロイメントにおけるオンライン探索のために、依然として安全上の課題を生じさせている。
本稿では、オフラインで訓練されたポリシーを微調整することで、視覚に基づくロボットタスクの展開段階における安全性をさらに向上することを目的とする。
論文 参考訳(メタデータ) (2024-07-06T03:22:57Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - Constrained Meta-Reinforcement Learning for Adaptable Safety Guarantee
with Differentiable Convex Programming [4.825619788907192]
本稿では,メタラーニングアプローチ(ラーニング・トゥ・ラーン)のレンズを通して制約された問題を解くことによって,非定常環境における安全性を確保するためのユニークな課題について考察する。
まず,複数タスクにまたがるコンベックス制約付きポリシー更新を連続的に採用し,エンドツーエンドの差別化を可能にすることで,制約のあるシナリオにおけるメタラーニングを可能にする。
論文 参考訳(メタデータ) (2023-12-15T21:55:43Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Risk-Averse Model Uncertainty for Distributionally Robust Safe
Reinforcement Learning [3.9821399546174825]
不確実な環境での安全な意思決定のための深層強化学習フレームワークを提案する。
我々は,このフレームワークに対して,分散的に堅牢な強化学習問題の特定のクラスと等価であることを示すことによって,堅牢性を保証する。
安全性の制約のある継続的制御タスクの実験では、当社のフレームワークが、さまざまな障害のあるテスト環境にわたるデプロイメント時に、堅牢なパフォーマンスと安全性を実現していることを示す。
論文 参考訳(メタデータ) (2023-01-30T00:37:06Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Meta-Learning Priors for Safe Bayesian Optimization [72.8349503901712]
メタ学習アルゴリズムであるF-PACOHを構築し,データ不足の設定において確実な定量化を実現する。
コアコントリビューションとして、安全に適合した事前をデータ駆動で選択するための新しいフレームワークを開発する。
ベンチマーク関数と高精度動作系において,我々のメタ学習先行が安全なBOアプローチの収束を加速することを示す。
論文 参考訳(メタデータ) (2022-10-03T08:38:38Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - ProBF: Learning Probabilistic Safety Certificates with Barrier Functions [31.203344483485843]
制御バリア関数は、地平系力学にアクセスできれば安全を保証できる便利なツールである。
実際には、システムダイナミクスに関する不正確な知識があるため、安全でない振る舞いにつながる可能性があります。
本手法の有効性をSegwayとQuadrotorのシミュレーション実験により示す。
論文 参考訳(メタデータ) (2021-12-22T20:18:18Z) - Safely Learning Dynamical Systems from Short Trajectories [12.184674552836414]
未知の力学系を制御することの学習における根本的な課題は、安全を維持しながら測定を行うことによってモデルの不確実性を減少させることである。
我々は,次の軌道の始点を逐次決定することで,力学系を安全に学習することの意味の数学的定義を定式化する。
本稿では,長さ1の軌跡から真の力学を安全に復元するか,安全な学習が不可能であることを証明した線形プログラミングに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-24T18:06:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。