Fugu-MT 論文翻訳(概要): A Simple Unified Framework for Anomaly Detection in Deep Reinforcement Learning

論文の概要: A Simple Unified Framework for Anomaly Detection in Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2109.09889v1
Date: Tue, 21 Sep 2021 00:09:03 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-22 14:34:28.030504
Title: A Simple Unified Framework for Anomaly Detection in Deep Reinforcement Learning
Title（参考訳）: 深層強化学習における異常検出のための簡易統一フレームワーク
Authors: Hongming Zhang, Ke Sun, Bo Xu, Linglong Kong, Martin M\"uller
Abstract要約: 深層強化学習(RL)における異常状態は、RLポリシーの範囲を超えている状態である。本稿では,深部RLアルゴリズムのための簡易かつ効果的な異常検出フレームワークを提案する。
参考スコア（独自算出の注目度）: 20.08390854681034
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Abnormal states in deep reinforcement learning~(RL) are states that are beyond the scope of an RL policy. Such states may make the RL system unsafe and impede its deployment in real scenarios. In this paper, we propose a simple yet effective anomaly detection framework for deep RL algorithms that simultaneously considers random, adversarial and out-of-distribution~(OOD) state outliers. In particular, we attain the class-conditional distributions for each action class under the Gaussian assumption, and rely on these distributions to discriminate between inliers and outliers based on Mahalanobis Distance~(MD) and Robust Mahalanobis Distance. We conduct extensive experiments on Atari games that verify the effectiveness of our detection strategies. To the best of our knowledge, we present the first in-detail study of statistical and adversarial anomaly detection in deep RL algorithms. This simple unified anomaly detection paves the way towards deploying safe RL systems in real-world applications.
Abstract（参考訳）: 深層強化学習における異常状態~(RL)は、RL政策の範囲を超えている状態である。このような状態は、RLシステムの安全性を損なう可能性があり、実際のシナリオでのデプロイメントを妨げます。本稿では,不規則,逆,外分布を同時に考慮した深部RLアルゴリズムのための簡易かつ効果的な異常検出フレームワークを提案する。特に、ガウス的仮定の下で各作用クラスのクラス条件分布を取得し、これらの分布に依存して、マハラノビス距離~(MD)とロバスト・マハラノビス距離に基づく不等式と外れ値の判別を行う。我々は,アタリゲームに対する広範な実験を行い,検出戦略の有効性を検証する。我々の知る限り、深部RLアルゴリズムにおける統計的および逆方向の異常検出に関する最初の詳細な研究を示す。この単純な統一異常検出は、現実世界のアプリケーションに安全なrlシステムをデプロイする道を開く。

関連論文リスト

An Adversarial-Driven Experimental Study on Deep Learning for RF Fingerprinting [6.503988096115075]
無線周波数(RF)フィンガープリントは、有望な物理層デバイス識別機構として登場した。ディープラーニング(DL)手法はこの領域で最先端のパフォーマンスを実証している。生の受信信号に対するDLモデルの訓練により,RF指紋と環境・信号パターンの特徴を絡み合わせる結果が得られた。
論文参考訳（メタデータ） (2025-07-18T17:42:20Z)
Anomalous Decision Discovery using Inverse Reinforcement Learning [3.3675535571071746]
異常検出は、知覚システムを通じて異常な行動を特定することによって、自律走行車(AV)において重要な役割を果たす。現在のアプローチは、しばしば定義済みのしきい値や教師付き学習パラダイムに依存するが、目に見えないシナリオに直面すると効果が低下する。異常検出のための新しいIRLフレームワークである Trajectory-Reward Guided Adaptive Pre-training (TRAP) を提案する。
論文参考訳（メタデータ） (2025-07-06T17:01:02Z)
SCADE: Scalable Framework for Anomaly Detection in High-Performance System [0.0]
コマンドラインインタフェースは高性能コンピューティング環境に不可欠な存在である。従来のセキュリティソリューションでは、コンテキスト固有の性質、ラベル付きデータの欠如、LOL(Living-off-the-Land)のような高度な攻撃の頻度による異常の検出に苦労している。本稿では,グローバル統計モデルと局所的文脈特化分析を組み合わせた拡張型コマンドライン異常検出エンジン(SCADE)について紹介する。
論文参考訳（メタデータ） (2024-12-05T15:39:13Z)
Scalable Offline Reinforcement Learning for Mean Field Games [6.8267158622784745]
Off-MMDは、純粋なオフラインデータを用いて平均フィールドゲームにおける平衡ポリシーを近似する新しい平均フィールドRLアルゴリズムである。我々のアルゴリズムは複雑な環境にスケールし、群衆探索やナビゲーションといったベンチマークタスクで強いパフォーマンスを示す。
論文参考訳（メタデータ） (2024-10-23T14:16:34Z)
Learning-Based Shielding for Safe Autonomy under Unknown Dynamics [9.786577115501602]
シールド(英: Shielding)は、ブラックボックスコントローラの下でシステムの安全性を保証する方法である。本稿では,未知システムの安全性を保証するデータ駆動遮蔽手法を提案する。
論文参考訳（メタデータ） (2024-10-07T16:10:15Z)
HUWSOD: Holistic Self-training for Unified Weakly Supervised Object Detection [66.42229859018775]
我々は,HUWSOD(HuWSOD)と呼ばれる,統一・高容量弱教師付きオブジェクト検出(WSOD)ネットワークを導入する。 HUWSODには、自己管理された提案生成器と、従来のオブジェクト提案を置き換えるために、マルチレートで再構成されたピラミッドを備えたオートエンコーダ提案生成器が組み込まれている。提案手法は,よく設計されたオフラインオブジェクト提案と大きく異なるが,WSOD訓練には有効であることを示す。
論文参考訳（メタデータ） (2024-06-27T17:59:49Z)
Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文参考訳（メタデータ） (2024-02-07T21:58:40Z)
Diminishing Empirical Risk Minimization for Unsupervised Anomaly Detection [0.0]
経験的リスク最小化(ERM)は、未知の分布におけるアルゴリズムの性能を、既知のトレーニングセットにおける損失の平均化によって近似できると仮定する。本稿では,EMMの限界を突破する新しいDimical Risk Minimization(DERM)フレームワークを提案する。 DERMは、よく設計された集約戦略を通じて個々の損失の影響を適応的に調整する。
論文参考訳（メタデータ） (2022-05-29T14:18:26Z)
Inter-Domain Fusion for Enhanced Intrusion Detection in Power Systems: An Evidence Theoretic and Meta-Heuristic Approach [0.0]
ICSネットワークにおけるIDSによる不正な警告は、経済的および運用上の重大な損害をもたらす可能性がある。本研究は,CPS電力系統における誤警報の事前分布を伴わずに不確実性に対処し,誤警報を低減する手法を提案する。
論文参考訳（メタデータ） (2021-11-20T00:05:39Z)
Learning Robust Output Control Barrier Functions from Safe Expert Demonstrations [50.37808220291108]
本稿では,専門家によるデモンストレーションの部分的な観察から,安全な出力フィードバック制御法を考察する。まず,安全性を保証する手段として,ロバスト出力制御バリア関数(ROCBF)を提案する。次に、安全なシステム動作を示す専門家による実証からROCBFを学習するための最適化問題を定式化する。
論文参考訳（メタデータ） (2021-11-18T23:21:00Z)
Improving Variational Autoencoder based Out-of-Distribution Detection for Embedded Real-time Applications [2.9327503320877457]
アウト・オブ・ディストリビューション(OD)検出は、リアルタイムにアウト・オブ・ディストリビューションを検出するという課題に対処する新しいアプローチである。本稿では,自律走行エージェントの周囲の有害な動きを頑健に検出する方法について述べる。提案手法は,OoD因子の検出能力を一意に改善し,最先端手法よりも42%向上した。また,本モデルでは,実験した実世界およびシミュレーション駆動データに対して,最先端技術よりも97%の精度でほぼ完璧に一般化した。
論文参考訳（メタデータ） (2021-07-25T07:52:53Z)
Detecting Rewards Deterioration in Episodic Reinforcement Learning [63.49923393311052]
多くのRLアプリケーションでは、トレーニングが終了すると、エージェント性能の劣化をできるだけ早く検出することが不可欠である。我々は,各エピソードにおける報酬が独立でもなく,同一に分散した,マルコフでもない,エピソード的枠組みを考察する。平均シフトは、時間信号の劣化(報酬など)に対応する方法で定義し、最適な統計的パワーでこの問題の試行を導出する。
論文参考訳（メタデータ） (2020-10-22T12:45:55Z)
Unsupervised Anomaly Detection with Adversarial Mirrored AutoEncoders [51.691585766702744]
本稿では,識別器のミラー化ワッサースタイン損失を利用して,よりセマンティックレベルの再構築を行う逆自動エンコーダの変種を提案する。我々は,再建基準の代替として,異常スコアの代替尺度を提案した。提案手法は,OOD検出ベンチマークにおける異常検出の最先端手法よりも優れている。
論文参考訳（メタデータ） (2020-03-24T08:26:58Z)
SUOD: Accelerating Large-Scale Unsupervised Heterogeneous Outlier Detection [63.253850875265115]
外乱検出(OD)は、一般的なサンプルから異常物体を識別するための機械学習(ML)タスクである。そこで我々は,SUODと呼ばれるモジュール型加速度システムを提案する。
論文参考訳（メタデータ） (2020-03-11T00:22:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。