論文の概要: A Distance-based Anomaly Detection Framework for Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2109.09889v3
- Date: Fri, 18 Oct 2024 17:32:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:23:02.677162
- Title: A Distance-based Anomaly Detection Framework for Deep Reinforcement Learning
- Title(参考訳): 深層強化学習のための距離ベース異常検出フレームワーク
- Authors: Hongming Zhang, Ke Sun, Bo Xu, Linglong Kong, Martin Müller,
- Abstract要約: 深層強化学習(RL)システムでは、異常な状態が予測不能な行動や安全でない行動を引き起こす可能性があり、重大なリスクを引き起こす。
深部RLアルゴリズムのための新しいMahalanobis distance-based anomaly detection framework, textitMDXを提案する。
MDXは、オフラインとオンラインの両方の設定において、ランダム、逆境、およびアウト・オブ・ディストリビューション(OOD)状態のアウトレイラに同時に対処する。
- 参考スコア(独自算出の注目度): 33.623558899286635
- License:
- Abstract: In deep reinforcement learning (RL) systems, abnormal states pose significant risks by potentially triggering unpredictable behaviors and unsafe actions, thus impeding the deployment of RL systems in real-world scenarios. It is crucial for reliable decision-making systems to have the capability to cast an alert whenever they encounter unfamiliar observations that they are not equipped to handle. In this paper, we propose a novel Mahalanobis distance-based (MD) anomaly detection framework, called \textit{MDX}, for deep RL algorithms. MDX simultaneously addresses random, adversarial, and out-of-distribution (OOD) state outliers in both offline and online settings. It utilizes Mahalanobis distance within class-conditional distributions for each action and operates within a statistical hypothesis testing framework under the Gaussian assumption. We further extend it to robust and distribution-free versions by incorporating Robust MD and conformal inference techniques. Through extensive experiments on classical control environments, Atari games, and autonomous driving scenarios, we demonstrate the effectiveness of our MD-based detection framework. MDX offers a simple, unified, and practical anomaly detection tool for enhancing the safety and reliability of RL systems in real-world applications.
- Abstract(参考訳): 深層強化学習(RL)システムでは、異常状態は予測不可能な行動や安全でない行動を引き起こす可能性があり、現実のシナリオにおけるRLシステムの展開を妨げる。
信頼性の高い意思決定システムは、対応できない不慣れな観察に遭遇した場合に警告を発する能力を持つことが不可欠である。
本稿では,Hahalanobis distance-based anomaly detection framework, \textit{MDX} を提案する。
MDXは、オフラインとオンラインの両方の設定において、ランダム、逆境、およびアウト・オブ・ディストリビューション(OOD)状態のアウトレイラに同時に対処する。
マハラノビス距離を各作用のクラス条件分布内で利用し、ガウスの仮定の下で統計的仮説テストフレームワーク内で機能する。
さらにロバストMDと共形推論技術を組み込むことで、ロバストかつ分布のないバージョンに拡張する。
古典的な制御環境、アタリゲーム、自律走行シナリオに関する広範な実験を通じて、MDベースの検出フレームワークの有効性を実証する。
MDXは、実世界のアプリケーションにおけるRLシステムの安全性と信頼性を高めるための、シンプルで統一的で実用的な異常検出ツールを提供する。
関連論文リスト
- Scalable Offline Reinforcement Learning for Mean Field Games [6.8267158622784745]
Off-MMDは、純粋なオフラインデータを用いて平均フィールドゲームにおける平衡ポリシーを近似する新しい平均フィールドRLアルゴリズムである。
我々のアルゴリズムは複雑な環境にスケールし、群衆探索やナビゲーションといったベンチマークタスクで強いパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-10-23T14:16:34Z) - Learning-Based Shielding for Safe Autonomy under Unknown Dynamics [9.786577115501602]
シールド(英: Shielding)は、ブラックボックスコントローラの下でシステムの安全性を保証する方法である。
本稿では,未知システムの安全性を保証するデータ駆動遮蔽手法を提案する。
論文 参考訳(メタデータ) (2024-10-07T16:10:15Z) - HUWSOD: Holistic Self-training for Unified Weakly Supervised Object Detection [66.42229859018775]
我々は,HUWSOD(HuWSOD)と呼ばれる,統一・高容量弱教師付きオブジェクト検出(WSOD)ネットワークを導入する。
HUWSODには、自己管理された提案生成器と、従来のオブジェクト提案を置き換えるために、マルチレートで再構成されたピラミッドを備えたオートエンコーダ提案生成器が組み込まれている。
提案手法は,よく設計されたオフラインオブジェクト提案と大きく異なるが,WSOD訓練には有効であることを示す。
論文 参考訳(メタデータ) (2024-06-27T17:59:49Z) - Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。
このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。
本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文 参考訳(メタデータ) (2024-02-07T21:58:40Z) - Diminishing Empirical Risk Minimization for Unsupervised Anomaly
Detection [0.0]
経験的リスク最小化(ERM)は、未知の分布におけるアルゴリズムの性能を、既知のトレーニングセットにおける損失の平均化によって近似できると仮定する。
本稿では,EMMの限界を突破する新しいDimical Risk Minimization(DERM)フレームワークを提案する。
DERMは、よく設計された集約戦略を通じて個々の損失の影響を適応的に調整する。
論文 参考訳(メタデータ) (2022-05-29T14:18:26Z) - Inter-Domain Fusion for Enhanced Intrusion Detection in Power Systems:
An Evidence Theoretic and Meta-Heuristic Approach [0.0]
ICSネットワークにおけるIDSによる不正な警告は、経済的および運用上の重大な損害をもたらす可能性がある。
本研究は,CPS電力系統における誤警報の事前分布を伴わずに不確実性に対処し,誤警報を低減する手法を提案する。
論文 参考訳(メタデータ) (2021-11-20T00:05:39Z) - Learning Robust Output Control Barrier Functions from Safe Expert Demonstrations [50.37808220291108]
本稿では,専門家によるデモンストレーションの部分的な観察から,安全な出力フィードバック制御法を考察する。
まず,安全性を保証する手段として,ロバスト出力制御バリア関数(ROCBF)を提案する。
次に、安全なシステム動作を示す専門家による実証からROCBFを学習するための最適化問題を定式化する。
論文 参考訳(メタデータ) (2021-11-18T23:21:00Z) - Improving Variational Autoencoder based Out-of-Distribution Detection
for Embedded Real-time Applications [2.9327503320877457]
アウト・オブ・ディストリビューション(OD)検出は、リアルタイムにアウト・オブ・ディストリビューションを検出するという課題に対処する新しいアプローチである。
本稿では,自律走行エージェントの周囲の有害な動きを頑健に検出する方法について述べる。
提案手法は,OoD因子の検出能力を一意に改善し,最先端手法よりも42%向上した。
また,本モデルでは,実験した実世界およびシミュレーション駆動データに対して,最先端技術よりも97%の精度でほぼ完璧に一般化した。
論文 参考訳(メタデータ) (2021-07-25T07:52:53Z) - Detecting Rewards Deterioration in Episodic Reinforcement Learning [63.49923393311052]
多くのRLアプリケーションでは、トレーニングが終了すると、エージェント性能の劣化をできるだけ早く検出することが不可欠である。
我々は,各エピソードにおける報酬が独立でもなく,同一に分散した,マルコフでもない,エピソード的枠組みを考察する。
平均シフトは、時間信号の劣化(報酬など)に対応する方法で定義し、最適な統計的パワーでこの問題の試行を導出する。
論文 参考訳(メタデータ) (2020-10-22T12:45:55Z) - Unsupervised Anomaly Detection with Adversarial Mirrored AutoEncoders [51.691585766702744]
本稿では,識別器のミラー化ワッサースタイン損失を利用して,よりセマンティックレベルの再構築を行う逆自動エンコーダの変種を提案する。
我々は,再建基準の代替として,異常スコアの代替尺度を提案した。
提案手法は,OOD検出ベンチマークにおける異常検出の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2020-03-24T08:26:58Z) - SUOD: Accelerating Large-Scale Unsupervised Heterogeneous Outlier
Detection [63.253850875265115]
外乱検出(OD)は、一般的なサンプルから異常物体を識別するための機械学習(ML)タスクである。
そこで我々は,SUODと呼ばれるモジュール型加速度システムを提案する。
論文 参考訳(メタデータ) (2020-03-11T00:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。