論文の概要: MDPFuzzer: Finding Crash-Triggering State Sequences in Models Solving
the Markov Decision Process
- arxiv url: http://arxiv.org/abs/2112.02807v1
- Date: Mon, 6 Dec 2021 06:35:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-08 06:27:59.459731
- Title: MDPFuzzer: Finding Crash-Triggering State Sequences in Models Solving
the Markov Decision Process
- Title(参考訳): mdpfuzzer: マルコフ決定過程を解決するモデルにおけるクラッシュトリガー状態シーケンスの発見
- Authors: Qi Pang, Yuanyuan Yuan, Shuai Wang
- Abstract要約: MDPFuzzerはマルコフ決定過程(MDP)を解くための最初のブラックボックスファズテストフレームワークである。
MDPFuzzerは、ターゲットモデルが異常かつ危険な状態に入るかどうかを確認することで、オークルをテストする。
クラッシュトリガリング状態は正常に見えるが,正常な状態と比較してニューロンの活性化パターンが異なることが示唆された。
- 参考スコア(独自算出の注目度): 8.221850343231065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Markov decision process (MDP) provides a mathematical framework for
modeling sequential decision-making problems, many of which are crucial to
security and safety, such as autonomous driving and robot control. The rapid
development of artificial intelligence research has created efficient methods
for solving MDPs, such as deep neural networks (DNNs), reinforcement learning
(RL), and imitation learning (IL). However, these popular models for solving
MDPs are neither thoroughly tested nor rigorously reliable.
We present MDPFuzzer, the first blackbox fuzz testing framework for models
solving MDPs. MDPFuzzer forms testing oracles by checking whether the target
model enters abnormal and dangerous states. During fuzzing, MDPFuzzer decides
which mutated state to retain by measuring if it can reduce cumulative rewards
or form a new state sequence. We design efficient techniques to quantify the
"freshness" of a state sequence using Gaussian mixture models (GMMs) and
dynamic expectation-maximization (DynEM). We also prioritize states with high
potential of revealing crashes by estimating the local sensitivity of target
models over states.
MDPFuzzer is evaluated on five state-of-the-art models for solving MDPs,
including supervised DNN, RL, IL, and multi-agent RL. Our evaluation includes
scenarios of autonomous driving, aircraft collision avoidance, and two games
that are often used to benchmark RL. During a 12-hour run, we find over 80
crash-triggering state sequences on each model. We show inspiring findings that
crash-triggering states, though look normal, induce distinct neuron activation
patterns compared with normal states. We further develop an abnormal behavior
detector to harden all the evaluated models and repair them with the findings
of MDPFuzzer to significantly enhance their robustness without sacrificing
accuracy.
- Abstract(参考訳): マルコフ決定プロセス(markov decision process, mdp)は、逐次的な意思決定問題をモデル化するための数学的枠組みを提供する。
人工知能研究の急速な発展は、ディープニューラルネットワーク(DNN)、強化学習(RL)、模倣学習(IL)などのMDPを解決する効率的な方法を生み出している。
しかし、これらのMDPを解くための一般的なモデルは、徹底的にテストしたり、厳格に信頼できるものではない。
MDPを解くモデルのための最初のブラックボックスファジテストフレームワークであるMDPFuzzerを紹介する。
MDPFuzzerは、ターゲットモデルが異常かつ危険な状態に入るかどうかを確認することで、オークルをテストする。
ファジング中、MDPFuzzerは、累積報酬を減らしたり、新しい状態列を形成することができるかどうかを測定することで、どの変異状態を保持するかを決定する。
ガウス混合モデル(GMM)と動的期待最大化(DynEM)を用いて状態列の「フレッシュネス」を定量化する効率的な手法を設計する。
また,対象モデルの局所的感度を状態よりも推定することにより,クラッシュを顕在化する可能性の高い状態を優先する。
MDPFuzzerは、教師付きDNN、RL、IL、マルチエージェントRLを含む5つの最先端モデルで評価される。
我々の評価には、自律走行のシナリオ、航空機衝突回避、RLのベンチマークによく使用される2つのゲームが含まれる。
12時間実行中に、各モデルに80以上のクラッシュトリガ状態シーケンスが見られます。
クラッシュトリガー状態は正常に見えるものの、正常な状態と比較して異なるニューロンの活性化パターンを誘導する。
さらに,すべての評価モデルを強化し,mdpfuzzerの発見で修復し,精度を犠牲にすることなくロバスト性を大幅に向上させる異常動作検出器を開発した。
関連論文リスト
- Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - Real-Time Anomaly Detection and Reactive Planning with Large Language Models [18.57162998677491]
例えば、大規模な言語モデル(LLM)は、インターネットスケールのデータに基づいて訓練され、ゼロショット機能を持つ。
本稿では,潜在的な異常に関する判断を安全な制御フレームワークに組み込む2段階の推論フレームワークを提案する。
これにより、モニターは、四輪車や自動運転車のような動的ロボットシステムの信頼性を向上させることができる。
論文 参考訳(メタデータ) (2024-07-11T17:59:22Z) - Investigating the Robustness of Counterfactual Learning to Rank Models: A Reproducibility Study [61.64685376882383]
ランク付け学習(CLTR: Counterfactual Learning to rank)は、IRコミュニティにおいて、ログ化された大量のユーザインタラクションデータを活用してランキングモデルをトレーニングする能力において、大きな注目を集めている。
本稿では,複雑かつ多様な状況における既存のCLTRモデルのロバスト性について検討する。
その結果, DLAモデルとIPS-DCMは, PS-PBMやPSSよりも, オフラインの確率推定による堅牢性が高いことがわかった。
論文 参考訳(メタデータ) (2024-04-04T10:54:38Z) - Learning Residual Model of Model Predictive Control via Random Forests
for Autonomous Driving [13.865293598486492]
自律運転における予測制御(MPC)の大きな問題は、システムモデルの予測と計算の矛盾である。
本稿では、MPC追跡精度をプログラム(QP)問題最適化として再構成し、プログラム(QP)が効果的に解けるようにする。
論文 参考訳(メタデータ) (2023-04-10T03:32:09Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Robust DNN Surrogate Models with Uncertainty Quantification via
Adversarial Training [17.981250443856897]
代理モデルは、物理または生物学的プロセスの数学的シミュレーターをエミュレートするために使われてきた。
ディープニューラルネットワーク(DNN)サロゲートモデルは、ハード・ト・マッチエミュレーションの精度で人気を集めている。
本稿では,実証的研究と仮説テストを通じて,この問題の深刻度を示す。
論文 参考訳(メタデータ) (2022-11-10T05:09:39Z) - Improving Variational Autoencoder based Out-of-Distribution Detection
for Embedded Real-time Applications [2.9327503320877457]
アウト・オブ・ディストリビューション(OD)検出は、リアルタイムにアウト・オブ・ディストリビューションを検出するという課題に対処する新しいアプローチである。
本稿では,自律走行エージェントの周囲の有害な動きを頑健に検出する方法について述べる。
提案手法は,OoD因子の検出能力を一意に改善し,最先端手法よりも42%向上した。
また,本モデルでは,実験した実世界およびシミュレーション駆動データに対して,最先端技術よりも97%の精度でほぼ完璧に一般化した。
論文 参考訳(メタデータ) (2021-07-25T07:52:53Z) - Model-based micro-data reinforcement learning: what are the crucial
model properties and which model to choose? [0.2836066255205732]
我々は,マイクロデータモデルに基づく強化学習(MBRL)に寄与する。
マルチモーダルな後続予測を必要とする環境では、混合密度ネットは他のモデルよりも大きなマージンで優れていることがわかった。
また、決定論的モデルは同等であり、実際、確率論的モデルよりも一貫して(非目立ったことではないが)優れていることも見出した。
論文 参考訳(メタデータ) (2021-07-24T11:38:25Z) - Anomaly Detection of Time Series with Smoothness-Inducing Sequential
Variational Auto-Encoder [59.69303945834122]
Smoothness-Inducing Sequential Variational Auto-Encoder (SISVAE) モデルを提案する。
我々のモデルは、フレキシブルニューラルネットワークを用いて各タイムスタンプの平均と分散をパラメータ化する。
合成データセットと公開実世界のベンチマークの両方において,本モデルの有効性を示す。
論文 参考訳(メタデータ) (2021-02-02T06:15:15Z) - Contextual-Bandit Anomaly Detection for IoT Data in Distributed
Hierarchical Edge Computing [65.78881372074983]
IoTデバイスは複雑なディープニューラルネットワーク(DNN)モデルにはほとんど余裕がなく、異常検出タスクをクラウドにオフロードすることは長い遅延を引き起こす。
本稿では,分散階層エッジコンピューティング(HEC)システムを対象とした適応型異常検出手法のデモと構築を行う。
提案手法は,検出タスクをクラウドにオフロードした場合と比較して,精度を犠牲にすることなく検出遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2020-04-15T06:13:33Z) - SUOD: Accelerating Large-Scale Unsupervised Heterogeneous Outlier
Detection [63.253850875265115]
外乱検出(OD)は、一般的なサンプルから異常物体を識別するための機械学習(ML)タスクである。
そこで我々は,SUODと呼ばれるモジュール型加速度システムを提案する。
論文 参考訳(メタデータ) (2020-03-11T00:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。