論文の概要: Testing for Fault Diversity in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2403.15065v1
- Date: Fri, 22 Mar 2024 09:46:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 17:58:20.408053
- Title: Testing for Fault Diversity in Reinforcement Learning
- Title(参考訳): 強化学習における欠陥多様性のテスト
- Authors: Quentin Mazouni, Helge Spieker, Arnaud Gotlieb, Mathieu Acher,
- Abstract要約: ポリシテストは可能な限り多くの障害(例えば、同様の自動車事故を引き起こすインプット)を見つけるのではなく、モデルで可能な限り情報的かつ多様な障害を明らかにすることを目的としている、と私たちは主張する。
QDの最適化は概念的には単純であり、一般的に適用可能であるが、決定モデルにおいてより多様な欠点を効果的に発見できることが示される。
- 参考スコア(独自算出の注目度): 13.133263651395865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning is the premier technique to approach sequential decision problems, including complex tasks such as driving cars and landing spacecraft. Among the software validation and verification practices, testing for functional fault detection is a convenient way to build trustworthiness in the learned decision model. While recent works seek to maximise the number of detected faults, none consider fault characterisation during the search for more diversity. We argue that policy testing should not find as many failures as possible (e.g., inputs that trigger similar car crashes) but rather aim at revealing as informative and diverse faults as possible in the model. In this paper, we explore the use of quality diversity optimisation to solve the problem of fault diversity in policy testing. Quality diversity (QD) optimisation is a type of evolutionary algorithm to solve hard combinatorial optimisation problems where high-quality diverse solutions are sought. We define and address the underlying challenges of adapting QD optimisation to the test of action policies. Furthermore, we compare classical QD optimisers to state-of-the-art frameworks dedicated to policy testing, both in terms of search efficiency and fault diversity. We show that QD optimisation, while being conceptually simple and generally applicable, finds effectively more diverse faults in the decision model, and conclude that QD-based policy testing is a promising approach.
- Abstract(参考訳): 強化学習(Reinforcement Learning)は、自動車や着陸宇宙船などの複雑なタスクを含む、シーケンシャルな意思決定問題にアプローチするための最重要技術である。
ソフトウェア検証と検証のプラクティスの中で、機能的障害検出のテストは、学習した決定モデルに信頼性を構築するのに便利な方法です。
最近の研究は検出された断層の数を最大化しようとしているが、さらなる多様性を求める際に断層の特徴を考慮しない。
ポリシテストは、可能な限り多くの障害(例えば、同様の自動車事故を引き起こすインプット)を見つけるのではなく、可能な限り情報的かつ多様な障害を明らかにすることを目指している、と私たちは主張する。
本稿では,政策試験における欠陥多様性の問題を解決するため,品質多様性最適化の活用について検討する。
品質多様性最適化(QD: Quality diversity optimization)は、高品質な多様な解を求める複雑な組合せ最適化問題を解くための進化アルゴリズムの一種である。
我々は、QD最適化をアクションポリシーのテストに適用する上での根本的な課題を定義し、対処する。
さらに,従来のQDオプティマイザを,検索効率とフォールト多様性の両面で,政策テスト専用の最先端フレームワークと比較した。
我々はQDの最適化が概念的には単純であり、一般的に適用可能であるが、決定モデルに事実上より多様な欠点があることを示し、QDベースの政策テストが有望なアプローチであると結論づける。
関連論文リスト
- Illuminating the Diversity-Fitness Trade-Off in Black-Box Optimization [9.838618121102053]
現実世界のアプリケーションでは、ユーザーは1つの高品質なソリューションよりも構造的に多様な設計選択を好むことが多い。
本稿では, この課題に対する新たな視点として, 与えられたしきい値を超えるペア距離の一定数の解を同定する問題を考察する。
論文 参考訳(メタデータ) (2024-08-29T09:55:55Z) - An Efficient Approach for Solving Expensive Constrained Multiobjective Optimization Problems [0.0]
効率的な確率的選択に基づく制約付き多目的EAをPSCMOEAと呼ぶ。
a) 評価された解の実現可能性と収束状態に基づく適応探索境界同定スキームのような新しい要素を含む。
ECMOPを模擬する低評価予算を用いて, 幅広い制約付き問題に対して, 数値実験を行った。
論文 参考訳(メタデータ) (2024-05-22T02:32:58Z) - On Pitfalls of Test-Time Adaptation [82.8392232222119]
TTA(Test-Time Adaptation)は、分散シフトの下で堅牢性に取り組むための有望なアプローチとして登場した。
TTABは,10の最先端アルゴリズム,多種多様な分散シフト,および2つの評価プロトコルを含むテスト時間適応ベンチマークである。
論文 参考訳(メタデータ) (2023-06-06T09:35:29Z) - Efficient Quality-Diversity Optimization through Diverse Quality Species [3.428706362109921]
我々は,アーカイブの必要をなくしたり,事前の動作範囲を定義したりすることなく,多様な解の集団を見つけることができることを示す。
本稿では,アーカイブベースの品質多様性(QD)アルゴリズムの代替として,DQS(Diverse Quality Species)を提案する。
論文 参考訳(メタデータ) (2023-04-14T23:15:51Z) - Uncertainty-Driven Action Quality Assessment [67.20617610820857]
本稿では,複数の判定スコアの多様性を捉えるために,不確実性駆動型AQA (UD-AQA) という新しい確率モデルを提案する。
我々は,AQA回帰損失の再重み付けに使用される各予測の不確かさを推定する。
提案手法は,オリンピックイベントMTL-AQAとFineDivingの3つのベンチマークと,手術スキルJIGSAWSデータセットの3つのベンチマークで比較結果を得た。
論文 参考訳(メタデータ) (2022-07-29T07:21:15Z) - Uncertainty-Aware Search Framework for Multi-Objective Bayesian
Optimization [40.40632890861706]
高価な関数評価を用いたマルチオブジェクト(MO)ブラックボックス最適化の問題点を考察する。
UeMOと呼ばれる新しい不確実性対応検索フレームワークを提案し、評価のための入力シーケンスを効率的に選択する。
論文 参考訳(メタデータ) (2022-04-12T16:50:48Z) - Evolutionary Diversity Optimisation for The Traveling Thief Problem [11.590506672325668]
解の集合の構造的多様性を最大化する二段階の進化的アルゴリズムを導入する。
多様性を得る最良の方法を実証的に決定する。
実験の結果,ほとんどのTTPベンチマークインスタンスにおける構造的多様性の観点から,QDアプローチの大幅な改善が示された。
論文 参考訳(メタデータ) (2022-04-06T10:13:55Z) - Robust Policy Learning over Multiple Uncertainty Sets [91.67120465453179]
強化学習(RL)エージェントは、安全クリティカルな環境の変動に対して堅牢である必要がある。
システム識別とロバストRLの両方の利点を享受するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-02-14T20:06:28Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - Discovering Diverse Solutions in Deep Reinforcement Learning [84.45686627019408]
強化学習アルゴリズムは通常、特定のタスクの単一のソリューションを学ぶことに限定される。
連続的あるいは離散的な低次元潜在変数に条件付きポリシーを訓練することにより、無限に多くの解を学習できるRL法を提案する。
論文 参考訳(メタデータ) (2021-03-12T04:54:31Z) - Quality meets Diversity: A Model-Agnostic Framework for Computerized
Adaptive Testing [60.38182654847399]
コンピュータ適応テスト(CAT)は多くのシナリオで有望なテストアプリケーションとして現れています。
CAT ソリューションのための新しいフレームワークである Model-Agnostic Adaptive Testing (MAAT) を提案する。
論文 参考訳(メタデータ) (2021-01-15T06:48:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。