論文の概要: Search-Based Testing of Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2205.04887v1
- Date: Sat, 7 May 2022 12:40:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-15 08:57:18.233567
- Title: Search-Based Testing of Reinforcement Learning
- Title(参考訳): 強化学習の検索ベーステスト
- Authors: Martin Tappler, Filip Cano C\'ordoba, Bernhard K. Aichernig and
Bettina K\"onighofer
- Abstract要約: ディープRLエージェントの安全性と性能を評価するための検索ベーステストフレームワークを提案する。
安全試験には,RLタスクを解く参照トレースを探索する検索アルゴリズムを用いる。
堅牢なパフォーマンステストのために、ファズテストを通じてさまざまなトレースセットを作成します。
任天堂のスーパーマリオブラザーズのRLに検索ベースのテストアプローチを適用した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluation of deep reinforcement learning (RL) is inherently challenging.
Especially the opaqueness of learned policies and the stochastic nature of both
agents and environments make testing the behavior of deep RL agents difficult.
We present a search-based testing framework that enables a wide range of novel
analysis capabilities for evaluating the safety and performance of deep RL
agents. For safety testing, our framework utilizes a search algorithm that
searches for a reference trace that solves the RL task. The backtracking states
of the search, called boundary states, pose safety-critical situations. We
create safety test-suites that evaluate how well the RL agent escapes
safety-critical situations near these boundary states. For robust performance
testing, we create a diverse set of traces via fuzz testing. These fuzz traces
are used to bring the agent into a wide variety of potentially unknown states
from which the average performance of the agent is compared to the average
performance of the fuzz traces. We apply our search-based testing approach on
RL for Nintendo's Super Mario Bros.
- Abstract(参考訳): 深部強化学習(RL)の評価は本質的に困難である。
特に学習方針の不透明さとエージェントと環境の両方の確率的性質は、深いRLエージェントの挙動をテストするのを困難にしている。
本稿では, ディープRLエージェントの安全性と性能を評価するために, 広範囲の新規解析機能を実現するための検索ベーステストフレームワークを提案する。
安全性テストには,rlタスクを解決する参照トレースを検索する検索アルゴリズムを利用する。
境界状態と呼ばれる探索のバックトラック状態は、安全クリティカルな状況を引き起こす。
我々は、RLエージェントが境界付近の安全クリティカルな状況からいかにうまく逃れるかを評価する安全テストスーツを作成する。
堅牢なパフォーマンステストのために、fuzzテストを通じてさまざまなトレースセットを作成します。
これらのファズトレースは、エージェントの平均性能がファズトレースの平均性能と比較される様々な潜在的未知の状態にエージェントを導くために使用される。
任天堂のスーパーマリオブラザーズのRLに検索ベースのテストアプローチを適用した。
関連論文リスト
- Safe Deep Reinforcement Learning by Verifying Task-Level Properties [84.64203221849648]
コスト関数は、安全深層強化学習(DRL)において一般的に用いられる。
このコストは通常、国家空間における政策決定のリスクの定量化が難しいため、指標関数として符号化される。
本稿では,ドメイン知識を用いて,そのような状態に近接するリスクを定量化するための代替手法について検討する。
論文 参考訳(メタデータ) (2023-02-20T15:24:06Z) - Provable Safe Reinforcement Learning with Binary Feedback [62.257383728544006]
状態, アクションペアの安全性に対するバイナリフィードバックを提供するオフラインオラクルへのアクセスを与えられた場合, 証明可能な安全なRLの問題を考える。
我々は,その設定に対してブラックボックスPAC RLアルゴリズムに与えられた任意のMDP設定に適用可能な,新しいメタアルゴリズムSABREを提案する。
論文 参考訳(メタデータ) (2022-10-26T05:37:51Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Ablation Study of How Run Time Assurance Impacts the Training and
Performance of Reinforcement Learning Agents [5.801944210870593]
本研究では,評価ベストプラクティスを用いたアブレーション研究を行い,実行時間保証(RTA)が効果的な学習に与える影響について検討する。
私たちの結論は、安全な強化学習の最も有望な方向性に光を当てました。
論文 参考訳(メタデータ) (2022-07-08T20:15:15Z) - A Search-Based Testing Approach for Deep Reinforcement Learning Agents [1.1580916951856255]
本稿では、DRLエージェントのポリシーをテストするために、検索に基づく強化学習エージェント(STARLA)のテスト手法を提案する。
我々は、機械学習モデルと専用の遺伝的アルゴリズムを使用して、故障エピソードに対する探索を絞り込みます。
論文 参考訳(メタデータ) (2022-06-15T20:51:33Z) - GalilAI: Out-of-Task Distribution Detection using Causal Active
Experimentation for Safe Transfer RL [11.058960131490903]
アウト・オブ・ディストリビューション(OOD)検出は教師あり学習においてよく研究されているトピックである。
本稿では,OOTD(Out-of-Task Distribution)検出という新しいタスクを提案する。
ガリレオ・ガリレイ(Galileo Galilei)に敬意を表して、我々の手法をガリライ(GalilAI)と名付けた。
論文 参考訳(メタデータ) (2021-10-29T01:45:56Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。