論文の概要: Benchmarking Safe Deep Reinforcement Learning in Aquatic Navigation
- arxiv url: http://arxiv.org/abs/2112.10593v1
- Date: Thu, 16 Dec 2021 16:53:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 16:13:46.735443
- Title: Benchmarking Safe Deep Reinforcement Learning in Aquatic Navigation
- Title(参考訳): 水生ナビゲーションにおける安全深層強化学習のベンチマーク
- Authors: Enrico Marchesini, Davide Corsi, Alessandro Farinelli
- Abstract要約: 本研究では,水文ナビゲーションに着目した安全強化学習のためのベンチマーク環境を提案する。
価値に基づく政策段階の深層強化学習(DRL)について考察する。
また,学習したモデルの振る舞いを所望の特性の集合上で検証する検証戦略を提案する。
- 参考スコア(独自算出の注目度): 78.17108227614928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel benchmark environment for Safe Reinforcement Learning
focusing on aquatic navigation. Aquatic navigation is an extremely challenging
task due to the non-stationary environment and the uncertainties of the robotic
platform, hence it is crucial to consider the safety aspect of the problem, by
analyzing the behavior of the trained network to avoid dangerous situations
(e.g., collisions). To this end, we consider a value-based and policy-gradient
Deep Reinforcement Learning (DRL) and we propose a crossover-based strategy
that combines gradient-based and gradient-free DRL to improve
sample-efficiency. Moreover, we propose a verification strategy based on
interval analysis that checks the behavior of the trained models over a set of
desired properties. Our results show that the crossover-based training
outperforms prior DRL approaches, while our verification allows us to quantify
the number of configurations that violate the behaviors that are described by
the properties. Crucially, this will serve as a benchmark for future research
in this domain of applications.
- Abstract(参考訳): 水生ナビゲーションに着目した安全強化学習のための新しいベンチマーク環境を提案する。
水生ナビゲーションは、非定常環境とロボットプラットフォームの不確実性のため、非常に困難な課題であり、危険な状況(例えば衝突)を避けるために訓練されたネットワークの挙動を分析することにより、問題の安全性について検討することが重要である。
そこで本研究では,drl(value-based and policy-gradient deep reinforcement learning)を考察し,サンプル効率を向上させるために,勾配ベースと勾配フリーのdrlを組み合わせたクロスオーバー方式を提案する。
さらに,学習したモデルの振る舞いを所望の特性の集合上で検証する区間解析に基づく検証戦略を提案する。
以上の結果から,クロスオーバーベースのトレーニングは従来のDRLアプローチよりも優れており,検証により,プロパティによって記述される動作に違反する構成の数を定量化できることがわかった。
重要なのは、このドメインのアプリケーションにおける将来の研究のベンチマークとして機能することです。
関連論文リスト
- Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - Learning to Terminate in Object Navigation [16.164536630623644]
本稿では,自律ナビゲーションシステムにおけるオブジェクトナビゲーションの課題に対処する。
我々は、Depth-Inference Termination Agent(DITA)という新しいアプローチを提案する。
我々は、補助学習と並行して審査モデルを訓練し、報奨信号によって効率よく前者を監督する。
論文 参考訳(メタデータ) (2023-09-28T04:32:08Z) - Online Safety Property Collection and Refinement for Safe Deep
Reinforcement Learning in Mapless Navigation [79.89605349842569]
オンラインプロパティのコレクション・リファインメント(CROP)フレームワークをトレーニング時にプロパティを設計するために導入する。
CROPは、安全でない相互作用を識別し、安全特性を形成するためにコストシグナルを使用する。
本手法をいくつかのロボットマップレスナビゲーションタスクで評価し,CROPで計算した違反量によって,従来のSafe DRL手法よりも高いリターンと低いリターンが得られることを示す。
論文 参考訳(メタデータ) (2023-02-13T21:19:36Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Neural Network Repair with Reachability Analysis [10.384532888747993]
安全は次世代の自律性にとって重要な問題であり、知覚と制御のためにディープニューラルネットワークに大きく依存する可能性が高い。
本研究は,安全クリティカルシステムにおける安全でないDNNを到達可能性解析で修復する枠組みを提案する。
論文 参考訳(メタデータ) (2021-08-09T17:56:51Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z) - Evaluating the Safety of Deep Reinforcement Learning Models using
Semi-Formal Verification [81.32981236437395]
本稿では,区間分析に基づく半形式的意思決定手法を提案する。
本手法は, 標準ベンチマークに比較して, 形式検証に対して比較結果を得る。
提案手法は, 意思決定モデルにおける安全性特性を効果的に評価することを可能にする。
論文 参考訳(メタデータ) (2020-10-19T11:18:06Z) - Learning Off-Policy with Online Planning [18.63424441772675]
本研究では,学習モデルと端末値関数を用いたHステップルックアヘッドの新たなインスタンス化について検討する。
ナビゲーション環境の集合に配置する際の安全性制約を組み込むLOOPの柔軟性を示す。
論文 参考訳(メタデータ) (2020-08-23T16:18:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。