Fugu-MT 論文翻訳(概要): A Search-Based Testing Approach for Deep Reinforcement Learning Agents

論文の概要: A Search-Based Testing Approach for Deep Reinforcement Learning Agents

arxiv url: http://arxiv.org/abs/2206.07813v4
Date: Fri, 4 Aug 2023 19:38:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-09 01:21:05.895989
Title: A Search-Based Testing Approach for Deep Reinforcement Learning Agents
Title（参考訳）: 深層強化学習エージェントの探索に基づくテスト手法
Authors: Amirhossein Zolfagharian, Manel Abdellatif, Lionel Briand, Mojtaba Bagherzadeh and Ramesh S
Abstract要約: 本稿では、DRLエージェントのポリシーをテストするために、検索に基づく強化学習エージェント(STARLA)のテスト手法を提案する。我々は、機械学習モデルと専用の遺伝的アルゴリズムを使用して、故障エピソードに対する探索を絞り込みます。
参考スコア（独自算出の注目度）: 1.1580916951856255
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep Reinforcement Learning (DRL) algorithms have been increasingly employed during the last decade to solve various decision-making problems such as autonomous driving and robotics. However, these algorithms have faced great challenges when deployed in safety-critical environments since they often exhibit erroneous behaviors that can lead to potentially critical errors. One way to assess the safety of DRL agents is to test them to detect possible faults leading to critical failures during their execution. This raises the question of how we can efficiently test DRL policies to ensure their correctness and adherence to safety requirements. Most existing works on testing DRL agents use adversarial attacks that perturb states or actions of the agent. However, such attacks often lead to unrealistic states of the environment. Their main goal is to test the robustness of DRL agents rather than testing the compliance of agents' policies with respect to requirements. Due to the huge state space of DRL environments, the high cost of test execution, and the black-box nature of DRL algorithms, the exhaustive testing of DRL agents is impossible. In this paper, we propose a Search-based Testing Approach of Reinforcement Learning Agents (STARLA) to test the policy of a DRL agent by effectively searching for failing executions of the agent within a limited testing budget. We use machine learning models and a dedicated genetic algorithm to narrow the search towards faulty episodes. We apply STARLA on Deep-Q-Learning agents which are widely used as benchmarks and show that it significantly outperforms Random Testing by detecting more faults related to the agent's policy. We also investigate how to extract rules that characterize faulty episodes of the DRL agent using our search results. Such rules can be used to understand the conditions under which the agent fails and thus assess its deployment risks.
Abstract（参考訳）: 深層強化学習(drl)アルゴリズムは、自動運転やロボティクスといったさまざまな意思決定問題を解決するために、過去10年間にますます使われてきた。しかし、これらのアルゴリズムは、しばしば誤った振る舞いを示し、潜在的に重大なエラーにつながる可能性があるため、安全クリティカルな環境にデプロイする場合、大きな課題に直面している。 DRLエージェントの安全性を評価する1つの方法は、実行時に重大な障害を引き起こす可能性のある障害を検出するためにそれらをテストすることである。これにより、DRLポリシーを効果的にテストして、安全要件の正しさと遵守を確実にする方法について疑問が持ち上がる。ほとんどの既存のDRLエージェントのテストでは、エージェントの状態や動作を妨害する敵攻撃を使用している。しかし、そのような攻撃は環境の非現実的な状態につながることが多い。彼らの主な目標は、要求に対するエージェントのポリシーの遵守をテストするのではなく、DRLエージェントの堅牢性をテストすることである。 DRL環境の巨大な状態空間、高いテスト実行コスト、およびDRLアルゴリズムのブラックボックスの性質のため、DRLエージェントの徹底的なテストは不可能である。本稿では,限られた試験予算内でのエージェントの実行失敗を効果的に検索することにより,DRLエージェントのポリシーをテストするための検索ベース強化学習エージェント(STARLA)を提案する。機械学習モデルと専用の遺伝的アルゴリズムを用いて、故障エピソードに対する探索を絞り込む。ベンチマークとして広く使用されている深層q学習エージェントにstarlaを適用し,エージェントの方針に関連する障害を検出することにより,ランダムテストを大幅に上回っていることを示す。また,DRLエージェントの異常エピソードを特徴付けるルールを検索結果から抽出する方法についても検討した。このようなルールは、エージェントが失敗する条件を理解し、デプロイメントのリスクを評価するために使用することができる。

関連論文リスト

GUARD: A Safe Reinforcement Learning Benchmark [11.887626936994883]
一般化SAfe強化学習開発ベンチマーク GUARDは、さまざまなRLエージェント、タスク、安全制約仕様を備えた一般化されたベンチマークである。本稿では,GUARDを用いた各種タスク設定における最先端安全RLアルゴリズムの比較を行い,今後の作業が構築できるベースラインを確立する。
論文参考訳（メタデータ） (2023-05-23T04:40:29Z)
Testing of Deep Reinforcement Learning Agents with Surrogate Models [10.243488468625786]
近年,Deep Reinforcement Learning (DRL) が研究コミュニティから注目を集めている。本稿では,このようなエージェントを探索的に検証する手法を提案する。
論文参考訳（メタデータ） (2023-05-22T06:21:39Z)
Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。本研究では, MRL の頑健な目標を制御レベルで定義する。ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文参考訳（メタデータ） (2023-01-26T14:54:39Z)
Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文参考訳（メタデータ） (2022-09-24T14:22:29Z)
A Comparison of Reinforcement Learning Frameworks for Software Testing Tasks [14.22330197686511]
Deep Reinforcement Learning (DRL)は、ゲームテスト、回帰テスト、テストケースの優先順位付けといった複雑なテストタスクに成功している。 DRLフレームワークは、DRLアプリケーションの開発を容易にし、高速化するために、十分に保守された実装されたDRLアルゴリズムを提供する。 DRLフレームワークにおける実装アルゴリズムの有効性と性能を実証的に評価する研究はない。
論文参考訳（メタデータ） (2022-08-25T14:52:16Z)
Search-Based Testing of Reinforcement Learning [0.0]
ディープRLエージェントの安全性と性能を評価するための検索ベーステストフレームワークを提案する。安全試験には,RLタスクを解く参照トレースを探索する検索アルゴリズムを用いる。堅牢なパフォーマンステストのために、ファズテストを通じてさまざまなトレースセットを作成します。任天堂のスーパーマリオブラザーズのRLに検索ベースのテストアプローチを適用した。
論文参考訳（メタデータ） (2022-05-07T12:40:45Z)
URLB: Unsupervised Reinforcement Learning Benchmark [82.36060735454647]
教師なし強化学習ベンチマーク(URLB)を紹介する。 URLBは2つのフェーズで構成されている。評価のために3つのドメインから12の連続制御タスクを提供し、8つの主要な教師なしRLメソッドに対してオープンソースコードを提供する。
論文参考訳（メタデータ） (2021-10-28T15:07:01Z)
Combining Pessimism with Optimism for Robust and Efficient Model-Based Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-18T16:50:17Z)
Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文参考訳（メタデータ） (2020-08-05T07:49:42Z)
Robust Deep Reinforcement Learning against Adversarial Perturbations on State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文参考訳（メタデータ） (2020-03-19T17:59:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。