論文の概要: Dependability Analysis of Deep Reinforcement Learning based Robotics and
Autonomous Systems
- arxiv url: http://arxiv.org/abs/2109.06523v1
- Date: Tue, 14 Sep 2021 08:42:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 00:36:29.053559
- Title: Dependability Analysis of Deep Reinforcement Learning based Robotics and
Autonomous Systems
- Title(参考訳): 深層強化学習に基づくロボットと自律システムの依存性解析
- Authors: Yi Dong, Xingyu Zhao, Xiaowei Huang
- Abstract要約: 深層強化学習(DRL)のブラックボックスの性質と不確実な展開環境は、その信頼性に新たな課題をもたらす。
本稿では、時間論理における信頼性特性のセットを定義し、DRL駆動RASのリスク/障害のダイナミクスをモデル化するための離散時間マルコフ連鎖(DTMC)を構築する。
実験の結果,提案手法は総合評価の枠組みとして有効であり,また,トレーニングにおいてトレードオフを必要とする可能性のある特性の相違を明らかにする。
- 参考スコア(独自算出の注目度): 10.499662874457998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Deep Reinforcement Learning (DRL) provides transformational
capabilities to the control of Robotics and Autonomous Systems (RAS), the
black-box nature of DRL and uncertain deployment-environments of RAS pose new
challenges on its dependability. Although there are many existing works
imposing constraints on the DRL policy to ensure a successful completion of the
mission, it is far from adequate in terms of assessing the DRL-driven RAS in a
holistic way considering all dependability properties. In this paper, we
formally define a set of dependability properties in temporal logic and
construct a Discrete-Time Markov Chain (DTMC) to model the dynamics of
risk/failures of a DRL-driven RAS interacting with the stochastic environment.
We then do Probabilistic Model Checking based on the designed DTMC to verify
those properties. Our experimental results show that the proposed method is
effective as a holistic assessment framework, while uncovers conflicts between
the properties that may need trade-offs in the training. Moreover, we find the
standard DRL training cannot improve dependability properties, thus requiring
bespoke optimisation objectives concerning them. Finally, our method offers a
novel dependability analysis to the Sim-to-Real challenge of DRL.
- Abstract(参考訳): 深層強化学習(Dep Reinforcement Learning, DRL)は、ロボットと自律システム(RAS)の制御に変換機能を提供するが、DRLのブラックボックスの性質と不確実な配置環境は、その信頼性に新たな課題をもたらす。
ミッションの完了を確実にするためにDRLポリシーに制約を課す既存の作業は数多く存在するが、すべての信頼性特性を考慮すると、DRL主導のRASを総合的に評価することは、決して適切ではない。
本稿では,時間論理における依存性特性の集合を形式的に定義し,確率的環境と相互作用するdrl駆動rasのリスク/障害のダイナミクスをモデル化する離散時間マルコフ連鎖(dtmc)を構築する。
次に、設計されたDTMCに基づいて確率モデルチェックを行い、それらの特性を検証する。
実験の結果,提案手法は総合評価フレームワークとして有効であり,また,トレーニングにおいてトレードオフが必要な特性間の矛盾を明らかにする。
また,標準のdrlトレーニングでは,信頼性が向上しないため,個別の最適化目標が必要となる。
最後に,本手法はDRLのSim-to-Real問題に対する新しい信頼性解析を提供する。
関連論文リスト
- Distributionally Robust Constrained Reinforcement Learning under Strong Duality [37.76993170360821]
分布ロバスト制約付きRL(DRC-RL)の問題点について検討する。
目標は、環境分布の変化や制約の対象となる報酬を最大化することである。
本稿では, 第一の効率的かつ証明可能な解を可能にする, 強双対性に基づくアルゴリズムフレームワークを開発する。
論文 参考訳(メタデータ) (2024-06-22T08:51:57Z) - Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - Critic-Guided Decision Transformer for Offline Reinforcement Learning [28.211835303617118]
CGDT(Critical-Guided Decision Transformer)
決定変換器の軌道モデリング機能を備えた値ベース手法からの長期的な戻り値の予測可能性を利用する。
これらの知見に基づいて,提案手法は,値に基づく手法からの長期的なリターンの予測可能性と,決定変換器の軌道モデリング能力を組み合わせた新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-21T10:29:17Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Online Policy Optimization for Robust MDP [17.995448897675068]
強化学習(Reinforcement Learning, RL)は、ビデオゲームやGoなど多くの合成環境において、人間のパフォーマンスを上回っている。
本研究では、未知の名義システムと対話することで、オンラインロバストなマルコフ決定プロセス(MDP)を検討する。
提案手法は,確率的に効率的であるロバストな楽観的ポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-28T05:18:20Z) - Robust Reinforcement Learning using Offline Data [23.260211453437055]
我々はロバストフィットQ-Iteration (RFQI) と呼ばれる頑健な強化学習アルゴリズムを提案する。
RFQIは、最適なロバストポリシを学ぶために、オフラインデータセットのみを使用する。
我々は、RFQIが標準仮定の下でほぼ最適のロバストポリシーを学習していることを証明する。
論文 参考訳(メタデータ) (2022-08-10T03:47:45Z) - Benchmarking Safe Deep Reinforcement Learning in Aquatic Navigation [78.17108227614928]
本研究では,水文ナビゲーションに着目した安全強化学習のためのベンチマーク環境を提案する。
価値に基づく政策段階の深層強化学習(DRL)について考察する。
また,学習したモデルの振る舞いを所望の特性の集合上で検証する検証戦略を提案する。
論文 参考訳(メタデータ) (2021-12-16T16:53:56Z) - Pessimistic Model Selection for Offline Deep Reinforcement Learning [56.282483586473816]
深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。
主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度に適合する問題である。
理論的保証のあるオフラインDRLに対する悲観的モデル選択(PMS)手法を提案する。
論文 参考訳(メタデータ) (2021-11-29T06:29:49Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。