論文の概要: Policy Testing with MDPFuzz (Replicability Study)
- arxiv url: http://arxiv.org/abs/2502.19116v1
- Date: Wed, 26 Feb 2025 13:11:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:58:44.243682
- Title: Policy Testing with MDPFuzz (Replicability Study)
- Title(参考訳): MDPFuzzによる政策試験(リプライバビリティスタディ)
- Authors: Quentin Mazouni, Helge Spieker, Arnaud Gotlieb, Mathieu Acher,
- Abstract要約: 本論文の重要な発見のいくつかを検証し,再現と複製によるMDPFuzzの限界について検討する。
以上の結果から,MDPFuzz より優れていることが判明し,提案したカバレッジモデルが欠点の発見に繋がらないという結論が得られた。
- 参考スコア(独自算出の注目度): 13.133263651395865
- License:
- Abstract: In recent years, following tremendous achievements in Reinforcement Learning, a great deal of interest has been devoted to ML models for sequential decision-making. Together with these scientific breakthroughs/advances, research has been conducted to develop automated functional testing methods for finding faults in black-box Markov decision processes. Pang et al. (ISSTA 2022) presented a black-box fuzz testing framework called MDPFuzz. The method consists of a fuzzer whose main feature is to use Gaussian Mixture Models (GMMs) to compute coverage of the test inputs as the likelihood to have already observed their results. This guidance through coverage evaluation aims at favoring novelty during testing and fault discovery in the decision model. Pang et al. evaluated their work with four use cases, by comparing the number of failures found after twelve-hour testing campaigns with or without the guidance of the GMMs (ablation study). In this paper, we verify some of the key findings of the original paper and explore the limits of MDPFuzz through reproduction and replication. We re-implemented the proposed methodology and evaluated our replication in a large-scale study that extends the original four use cases with three new ones. Furthermore, we compare MDPFuzz and its ablated counterpart with a random testing baseline. We also assess the effectiveness of coverage guidance for different parameters, something that has not been done in the original evaluation. Despite this parameter analysis and unlike Pang et al.'s original conclusions, we find that in most cases, the aforementioned ablated Fuzzer outperforms MDPFuzz, and conclude that the coverage model proposed does not lead to finding more faults.
- Abstract(参考訳): 近年、強化学習における大きな成果に続いて、シーケンシャルな意思決定のためのMLモデルに多大な関心が寄せられている。
これらの科学的ブレークスルー・アドバンスとともに、ブラックボックスマルコフ決定プロセスの欠陥を見つけるための自動機能テスト手法の開発が研究されている。
Pang et al (ISSTA 2022) は MDP Fuzz と呼ばれるブラックボックスファズテストフレームワークを発表した。
この手法は、ガウス混合モデル(GMM)を用いてテスト入力のカバレッジを既に観測済みの確率として計算するファジィザで構成されている。
このカバレッジ評価によるガイダンスは、意思決定モデルにおけるテスト中の新規性や障害発見を優先することを目的としている。
Pangらは、12時間の試験キャンペーンで見つかった失敗数とGMMの指導の有無を比較して、4つのユースケースで作業を評価した(アブレーション調査)。
本稿では,本論文の重要な発見のいくつかを検証し,再生と複製によるMDPFuzzの限界について検討する。
提案手法を再実装し,従来の4つのユースケースを3つの新しいユースケースで拡張した大規模研究で再現性を評価した。
さらに,MDPFuzzとその短縮版をランダムなテストベースラインと比較した。
また,異なるパラメータに対するカバレッジガイダンスの有効性も評価した。
このパラメータ分析とPangらによる結論とは違って、前述の拡張ファジィアはMDPFuzzよりも優れており、提案したカバレッジモデルがより多くの欠点を見出すには至らないと結論付けている。
関連論文リスト
- Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。
本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。
我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文 参考訳(メタデータ) (2024-09-24T14:52:14Z) - Two new feature selection methods based on learn-heuristic techniques for breast cancer prediction: A comprehensive analysis [6.796017024594715]
帝国主義競争アルゴリズム(ICA)とバットアルゴリズム(BA)に基づく2つの新しい特徴選択法を提案する。
本研究は, 診断モデルの効率を向上し, 臨床医師がこれまでよりもはるかに正確かつ信頼性の高い意思決定を行えるよう包括的分析を行うことを目的とする。
論文 参考訳(メタデータ) (2024-07-19T19:07:53Z) - Sample Complexity Bounds for Score-Matching: Causal Discovery and
Generative Modeling [82.36856860383291]
我々は,標準深部ReLUニューラルネットワークをトレーニングすることにより,スコア関数の正確な推定が可能であることを実証した。
スコアマッチングに基づく因果発見手法を用いて因果関係の回復の誤差率の限界を確立する。
論文 参考訳(メタデータ) (2023-10-27T13:09:56Z) - A Semi-Bayesian Nonparametric Estimator of the Maximum Mean Discrepancy
Measure: Applications in Goodness-of-Fit Testing and Generative Adversarial
Networks [3.623570119514559]
そこで我々は,GoF(Goness-of-fit)テストのための半ベイズ非パラメトリック(セミBNP)手順を提案する。
提案手法は,最大平均誤差(MMD)測定のための新しいベイズ推定器を提案する。
提案手法は, 誤り仮説の誤認率と受理率を低くすることで, 頻繁なMDD法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-05T10:36:21Z) - In Search of Insights, Not Magic Bullets: Towards Demystification of the
Model Selection Dilemma in Heterogeneous Treatment Effect Estimation [92.51773744318119]
本稿では,異なるモデル選択基準の長所と短所を実験的に検討する。
選択戦略,候補推定器,比較に用いるデータの間には,複雑な相互作用があることを強調した。
論文 参考訳(メタデータ) (2023-02-06T16:55:37Z) - Machine Learning Testing in an ADAS Case Study Using
Simulation-Integrated Bio-Inspired Search-Based Testing [7.5828169434922]
Deeperは、ディープニューラルネットワークベースの車線保持システムをテストするための障害検出テストシナリオを生成する。
新たに提案されたバージョンでは、新しいバイオインスパイアされた検索アルゴリズム、遺伝的アルゴリズム(GA)、$(mu+lambda)$および$(mu,lambda)$進化戦略(ES)、およびParticle Swarm Optimization(PSO)を利用する。
評価の結果,Deeperで新たに提案したテストジェネレータは,以前のバージョンよりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-03-22T20:27:40Z) - MDPFuzz: Testing Models Solving Markov Decision Processes [10.53962813929928]
MDPFuzzはマルコフ決定過程(MDP)を解くための最初のブラックボックスファズテストフレームワークである。
MDPFuzzは、ターゲットモデルが異常状態と危険な状態に入るかどうかを確認することで、オークルをテストする。
衝突トリガー状態は正常に見えるが、正常状態と比較してニューロンの活性化パターンが異なることが示唆された。
論文 参考訳(メタデータ) (2021-12-06T06:35:55Z) - The MultiBERTs: BERT Reproductions for Robustness Analysis [86.29162676103385]
事前トレーニングの再実行は、パフォーマンスに関して、かなり異なる結論をもたらす可能性がある。
我々は25個のBERTベースのチェックポイントの集合であるMultiBERTを紹介する。
目標は、研究者が事前訓練の手順について、堅牢で統計的に正当化された結論を描けるようにすることである。
論文 参考訳(メタデータ) (2021-06-30T15:56:44Z) - What is the Vocabulary of Flaky Tests? An Extended Replication [0.0]
本研究は,コード識別子を用いたテストフレキネスの予測に関する実証的研究である。
トレーニング済みモデルのパフォーマンスを他のフラスコテストと異なるプロジェクトからデータセットを使用して検証しました。
論文 参考訳(メタデータ) (2021-03-23T16:42:22Z) - Tracking disease outbreaks from sparse data with Bayesian inference [55.82986443159948]
新型コロナウイルス(COVID-19)のパンデミックは、感染発生時の感染率を推定する新たな動機を与える。
標準的な手法は、より細かいスケールで共通する部分的な観測可能性とスパースなデータに対応するのに苦労する。
原理的に部分観測可能なベイズ的枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-12T20:37:33Z) - Noisy Adaptive Group Testing using Bayesian Sequential Experimental
Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。
本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文 参考訳(メタデータ) (2020-04-26T23:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。