論文の概要: Testing of Deep Reinforcement Learning Agents with Surrogate Models
- arxiv url: http://arxiv.org/abs/2305.12751v2
- Date: Sat, 11 Nov 2023 15:10:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 21:51:52.599178
- Title: Testing of Deep Reinforcement Learning Agents with Surrogate Models
- Title(参考訳): 代理モデルを用いた深部強化学習エージェントのテスト
- Authors: Matteo Biagiola, Paolo Tonella
- Abstract要約: 近年,Deep Reinforcement Learning (DRL) が研究コミュニティから注目を集めている。
本稿では,このようなエージェントを探索的に検証する手法を提案する。
- 参考スコア(独自算出の注目度): 10.243488468625786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Reinforcement Learning (DRL) has received a lot of attention from the
research community in recent years. As the technology moves away from game
playing to practical contexts, such as autonomous vehicles and robotics, it is
crucial to evaluate the quality of DRL agents. In this paper, we propose a
search-based approach to test such agents. Our approach, implemented in a tool
called Indago, trains a classifier on failure and non-failure environment
(i.e., pass) configurations resulting from the DRL training process. The
classifier is used at testing time as a surrogate model for the DRL agent
execution in the environment, predicting the extent to which a given
environment configuration induces a failure of the DRL agent under test. The
failure prediction acts as a fitness function, guiding the generation towards
failure environment configurations, while saving computation time by deferring
the execution of the DRL agent in the environment to those configurations that
are more likely to expose failures. Experimental results show that our
search-based approach finds 50% more failures of the DRL agent than
state-of-the-art techniques. Moreover, such failures are, on average, 78% more
diverse; similarly, the behaviors of the DRL agent induced by failure
configurations are 74% more diverse.
- Abstract(参考訳): 近年,深層強化学習 (DRL) が研究コミュニティから注目を集めている。
この技術は、ゲームプレイから自動運転車やロボティクスといった実践的なコンテキストに移行するため、drlエージェントの品質を評価することが不可欠である。
本稿では,このようなエージェントを検索ベースでテストする手法を提案する。
Indagoと呼ばれるツールで実装された我々のアプローチは、DRLトレーニングプロセスから生じる障害環境と非障害環境(すなわちパス)の分類器を訓練する。
この分類器は、テスト時に環境におけるdrlエージェントの実行のサロゲートモデルとして使用され、与えられた環境設定がテスト中のdrlエージェントの障害を引き起こす程度を予測する。
障害予測は適合関数として機能し、障害環境設定への生成を導くと同時に、障害を露呈する可能性のある構成に対して環境内のdrlエージェントの実行を遅らせることで、計算時間を節約する。
実験の結果,我々の検索手法は最先端技術よりもDRLエージェントの失敗率が50%多いことがわかった。
さらに、このような障害は平均して78%多様であり、同様に障害構成によって誘発されるDRLエージェントの挙動は74%多様である。
関連論文リスト
- muPRL: A Mutation Testing Pipeline for Deep Reinforcement Learning based on Real Faults [19.32186653723838]
まず,レポジトリマイニングによって得られた実RL断層の分類について述べる。
次に、そのような実断層から派生した突然変異演算子を示し、ツール muPRL に実装する。
実験結果から, muPRLは弱い試験発電機と強い判別に有効であることを示す。
論文 参考訳(メタデータ) (2024-08-27T15:45:13Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Can Agents Run Relay Race with Strangers? Generalization of RL to
Out-of-Distribution Trajectories [88.08381083207449]
異種エージェントの制御可能な状態に対する一般化失敗の有病率を示す。
本稿では,学習中のQ関数に従って環境をエージェントの旧状態にリセットする,STA(Self-Trajectory Augmentation)という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-26T10:12:12Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - A Search-Based Testing Approach for Deep Reinforcement Learning Agents [1.1580916951856255]
本稿では、DRLエージェントのポリシーをテストするために、検索に基づく強化学習エージェント(STARLA)のテスト手法を提案する。
我々は、機械学習モデルと専用の遺伝的アルゴリズムを使用して、故障エピソードに対する探索を絞り込みます。
論文 参考訳(メタデータ) (2022-06-15T20:51:33Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Enhancing the Generalization Performance and Speed Up Training for
DRL-based Mapless Navigation [18.13884934663477]
DRLエージェントはトレーニングシナリオでうまく動作し、目に見えない現実のシナリオではうまく動作しない。
本稿では,DRLエージェントがこのような未知のシナリオでフェールする理由を論じ,LiDAR読み出しの表現がエージェントの性能劣化の鍵となる要因であることを示す。
そこで本稿では,DRLエージェントの性能向上とトレーニングの高速化を目的とした,簡易かつ効率的な入力前処理(IP)手法を提案する。
論文 参考訳(メタデータ) (2021-03-22T09:36:51Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - Auto-Agent-Distiller: Towards Efficient Deep Reinforcement Learning
Agents via Neural Architecture Search [14.292072505007974]
本稿では,様々なタスクに対して最適なDRLエージェントを自動検索するAuto-Agent-Distiller (A2D) フレームワークを提案する。
我々は,バニラNASがDRLトレーニング安定性のばらつきが大きいため,最適なエージェントの探索に容易に失敗できることを実証した。
そこで我々は,教師エージェントのアクターと評論家の両方から知識を抽出し,探索プロセスを安定化し,探索エージェントの最適性を向上する新しい蒸留機構を開発する。
論文 参考訳(メタデータ) (2020-12-24T04:07:36Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。