論文の概要: Adaptive Stress Testing without Domain Heuristics using Go-Explore
- arxiv url: http://arxiv.org/abs/2004.04292v2
- Date: Thu, 18 Jun 2020 20:49:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 08:37:41.528533
- Title: Adaptive Stress Testing without Domain Heuristics using Go-Explore
- Title(参考訳): Go-Exploreを用いたドメインヒューリスティックを伴わない適応的ストレステスト
- Authors: Mark Koren and Mykel J. Kochenderfer
- Abstract要約: 強化学習(RL)は、自律システムにおける障害発見ツールとして使われてきた。
Go-Explore(GE)は先頃、ハード探索分野のベンチマークに新たなレコードを設定した。
GEは、車と歩行者の間の距離など、ドメイン固有性のない障害を見つけることができることを実証する。
- 参考スコア(独自算出の注目度): 41.013477422930755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, reinforcement learning (RL) has been used as a tool for finding
failures in autonomous systems. During execution, the RL agents often rely on
some domain-specific heuristic reward to guide them towards finding failures,
but constructing such a heuristic may be difficult or infeasible. Without a
heuristic, the agent may only receive rewards at the time of failure, or even
rewards that guide it away from failures. For example, some approaches give
rewards for taking more-likely actions, because we want to find more-likely
failures. However, the agent may then learn to only take likely actions, and
may not be able to find a failure at all. Consequently, the problem becomes a
hard-exploration problem, where rewards do not aid exploration. A new
algorithm, go-explore (GE), has recently set new records on benchmarks from the
hard-exploration field. We apply GE to adaptive stress testing (AST), one
example of an RL-based falsification approach that provides a way to search for
the most-likely failure scenario. We simulate a scenario where an autonomous
vehicle drives while a pedestrian is crossing the road. We demonstrate that GE
is able to find failures without domain-specific heuristics, such as the
distance between the car and the pedestrian, on scenarios that other RL
techniques are unable to solve. Furthermore, inspired by the robustification
phase of GE, we demonstrate that the backwards algorithm (BA) improves the
failures found by other RL techniques.
- Abstract(参考訳): 近年,自律システムにおける障害発見ツールとして強化学習(RL)が用いられている。
実行中、RLエージェントは、失敗を見つけるためにドメイン固有のヒューリスティック報酬に頼ることが多いが、そのようなヒューリスティックを構築することは困難または不可能である。
ヒューリスティック(ヒューリスティック)がなければ、エージェントは障害時にのみ報酬を受け取るか、あるいは障害から引き離す報酬を受けることができる。
例えば、いくつかのアプローチでは、より似たようなアクションを取ることに報酬を与えています。
しかし、エージェントは、起こりうるアクションのみを取ることを学習し、失敗を見つけることができないかもしれない。
その結果、報酬が探索に役立たないという難解な探索問題となる。
新たなアルゴリズムであるgo-explore(GE)は、最近、ハード探索フィールドからベンチマークに新しいレコードを設定した。
GEを適応ストレステスト(AST)に適用する。これは、最もよく似た障害シナリオを探索する方法を提供するRLベースのファルシフィケーションアプローチの一例である。
歩行者が道路を横断している間に自動運転車が運転するシナリオをシミュレートする。
GEは、他のRL技術では解決できないシナリオにおいて、車と歩行者の間の距離など、ドメイン固有のヒューリスティックなしで障害を見つけることができることを示した。
さらに,geのロバスト化フェーズに触発されて,後方アルゴリズム(ba)が他のrl手法による障害を改善することを実証した。
関連論文リスト
- Accelerating Exploration with Unlabeled Prior Data [66.43995032226466]
我々は,報酬ラベルのない先行データを用いて,新たなスパース報酬タスクを解くエージェントの探索を指導し,加速する方法について検討する。
我々は、オンライン体験から報酬モデルを学び、ラベルのない事前データを楽観的な報酬でラベル付けし、ダウンストリームポリシーと批判最適化のためにオンラインデータと並行して使用する簡単なアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-09T00:05:17Z) - GARL: Genetic Algorithm-Augmented Reinforcement Learning to Detect Violations in Marker-Based Autonomous Landing Systems [0.7461036096470347]
従来のオフラインテスト手法では、人間や動物のような動的なオブジェクトによる違反事例を見逃します。
オンラインテストの方法は、限られた予算で実行できない広範囲なトレーニング時間を必要とする。
本稿では遺伝的アルゴリズム(GA)と強化学習(RL)を組み合わせたフレームワークであるGARLを紹介する。
論文 参考訳(メタデータ) (2023-10-11T10:54:01Z) - Adaptive Failure Search Using Critical States from Domain Experts [9.93890332477992]
フェールサーチは、シミュレーションまたは実世界のテストにおいて、かなりの走行距離をロギングすることで行うことができる。
ASTはマルコフ決定プロセスとして失敗探索の問題を提起する手法である。
ASTフレームワークにクリティカルステートを組み込むことで,安全性違反の増大を伴う障害シナリオが生成されることを示す。
論文 参考訳(メタデータ) (2023-04-01T18:14:41Z) - A Search-Based Testing Approach for Deep Reinforcement Learning Agents [1.1580916951856255]
本稿では、DRLエージェントのポリシーをテストするために、検索に基づく強化学習エージェント(STARLA)のテスト手法を提案する。
我々は、機械学習モデルと専用の遺伝的アルゴリズムを使用して、故障エピソードに対する探索を絞り込みます。
論文 参考訳(メタデータ) (2022-06-15T20:51:33Z) - URLB: Unsupervised Reinforcement Learning Benchmark [82.36060735454647]
教師なし強化学習ベンチマーク(URLB)を紹介する。
URLBは2つのフェーズで構成されている。
評価のために3つのドメインから12の連続制御タスクを提供し、8つの主要な教師なしRLメソッドに対してオープンソースコードを提供する。
論文 参考訳(メタデータ) (2021-10-28T15:07:01Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Adaptive Stress Testing of Trajectory Predictions in Flight Management
Systems [24.873407623150033]
適応的ストレステスト(Adaptive stress testing)と呼ばれる,高度なブラックボックスストレステスト手法について検討する。
本研究の目的は,予測された横方向軌道の不整合に関連する故障事象を探索することである。
その結果、適応的ストレステスト手法は、より多くの障害を見つけ、ベースライン手法と比較して高い確率で失敗を見つけます。
論文 参考訳(メタデータ) (2020-11-04T22:05:43Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z) - Excursion Search for Constrained Bayesian Optimization under a Limited
Budget of Failures [62.41541049302712]
本稿では,所定の予算の失敗の関数として探索において許容されるリスクの量を制御する制御理論に基づく新しい意思決定者を提案する。
本アルゴリズムは, 種々の最適化実験において, 故障予算をより効率的に利用し, 一般に, 最先端の手法よりも, 後悔度を低くする。
論文 参考訳(メタデータ) (2020-05-15T09:54:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。