論文の概要: Reinforcement Learning for Online Testing of Autonomous Driving Systems: a Replication and Extension Study
- arxiv url: http://arxiv.org/abs/2403.13729v1
- Date: Wed, 20 Mar 2024 16:39:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 16:08:57.420262
- Title: Reinforcement Learning for Online Testing of Autonomous Driving Systems: a Replication and Extension Study
- Title(参考訳): 自律運転システムのオンラインテストのための強化学習 : レプリケーションと拡張研究
- Authors: Luca Giamattei, Matteo Biagiola, Roberto Pietrantuono, Stefano Russo, Paolo Tonella,
- Abstract要約: 最近の研究では、Reinforcement Learningはディープニューラルネットワーク対応システムのオンラインテストの代替技術より優れていることが示されている。
この作品は、その経験的研究の再現と拡張である。
その結果、我々の新しいRLエージェントは、ランダムテストよりも優れた効果的なポリシーに収束できることがわかった。
- 参考スコア(独自算出の注目度): 15.949975158039452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In a recent study, Reinforcement Learning (RL) used in combination with many-objective search, has been shown to outperform alternative techniques (random search and many-objective search) for online testing of Deep Neural Network-enabled systems. The empirical evaluation of these techniques was conducted on a state-of-the-art Autonomous Driving System (ADS). This work is a replication and extension of that empirical study. Our replication shows that RL does not outperform pure random test generation in a comparison conducted under the same settings of the original study, but with no confounding factor coming from the way collisions are measured. Our extension aims at eliminating some of the possible reasons for the poor performance of RL observed in our replication: (1) the presence of reward components providing contrasting or useless feedback to the RL agent; (2) the usage of an RL algorithm (Q-learning) which requires discretization of an intrinsically continuous state space. Results show that our new RL agent is able to converge to an effective policy that outperforms random testing. Results also highlight other possible improvements, which open to further investigations on how to best leverage RL for online ADS testing.
- Abstract(参考訳): 近年の研究では、多目的探索と組み合わせて使用される強化学習(RL)が、Deep Neural Network対応システムのオンラインテストのための代替技術(ランダム検索と多目的探索)より優れていることが示されている。
これらの手法の実証評価は、最先端の自律運転システム(ADS)を用いて行われた。
この作品は、その実証研究の再現と拡張である。
再現実験の結果、RLは原実験と同じ条件下で行った比較では純粋なランダムなテスト生成を上回りませんが、衝突の測定方法から生じる相反する要因は見当たらないことが分かりました。
本拡張は,本複製で観測されるRLの性能低下の原因のいくつかを解消することを目的としており,(1)RLエージェントに対するコントラストや無益なフィードバックを提供する報酬成分の存在,(2)本質的な連続状態空間の離散化を必要とするRLアルゴリズム(Q-learning)の使用などである。
その結果、我々の新しいRLエージェントは、ランダムテストよりも優れた効果的なポリシーに収束できることがわかった。
また、オンラインADSテストにRLを最大限活用する方法について、さらなる調査を行うための改善点も挙げている。
関連論文リスト
- Hybrid Inverse Reinforcement Learning [34.793570631021005]
逆強化学習による模倣学習は 両刃剣である。
我々は、不要な探索を抑えるために、ハイブリッドRL(オンラインデータとエキスパートデータの混合に関するトレーニング)の使用を提案する。
モデルフリーとモデルベースハイブリッド逆RLアルゴリズムの両方を導出し、強力なポリシー性能を保証する。
論文 参考訳(メタデータ) (2024-02-13T23:29:09Z) - Leveraging Reward Consistency for Interpretable Feature Discovery in
Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。
本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。
我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文 参考訳(メタデータ) (2023-09-04T09:09:54Z) - Reinforcement learning informed evolutionary search for autonomous
systems testing [15.210312666486029]
本稿では,ドメイン知識から得られるサロゲート報酬を用いて学習した強化学習(RL)エージェントを用いて進化的探索(ES)を強化することを提案する。
RIGAAとして知られる我々の手法では、まずRLエージェントを訓練し、問題の有用な制約を学習し、それを用いて探索アルゴリズムの初期集団の特定の部分を生成する。
RIGAAは自律性アリロボットの迷路生成と自律車線維持支援システムの道路トポロジー生成の2つのケーススタディで評価した。
論文 参考訳(メタデータ) (2023-08-24T13:11:07Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - A Comparison of Reinforcement Learning Frameworks for Software Testing
Tasks [14.22330197686511]
Deep Reinforcement Learning (DRL)は、ゲームテスト、回帰テスト、テストケースの優先順位付けといった複雑なテストタスクに成功している。
DRLフレームワークは、DRLアプリケーションの開発を容易にし、高速化するために、十分に保守された実装されたDRLアルゴリズムを提供する。
DRLフレームワークにおける実装アルゴリズムの有効性と性能を実証的に評価する研究はない。
論文 参考訳(メタデータ) (2022-08-25T14:52:16Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z) - On the Robustness of Controlled Deep Reinforcement Learning for Slice
Placement [0.8459686722437155]
我々は、純粋なDRLベースアルゴリズムとハイブリッドDRLヒューリスティックアルゴリズムである2つのDeep Reinforcement Learningアルゴリズムを比較した。
評価結果から,提案手法は純粋なDRLよりも予測不可能なネットワーク負荷変化の場合に,より堅牢で信頼性が高いことが示唆された。
論文 参考訳(メタデータ) (2021-08-05T10:24:33Z) - Learning on Abstract Domains: A New Approach for Verifiable Guarantee in
Reinforcement Learning [9.428825075908131]
有限抽象領域上でDRLシステムを学習するための抽象的アプローチを提案する。
入力状態が有限なニューラルネットワークを生成し、ホスティングDRLシステムが直接検証可能である。
論文 参考訳(メタデータ) (2021-06-13T06:28:40Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。
RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。
本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文 参考訳(メタデータ) (2020-06-24T17:14:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。