論文の概要: A Simple Unified Framework for Anomaly Detection in Deep Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2109.09889v1
- Date: Tue, 21 Sep 2021 00:09:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-22 14:34:28.030504
- Title: A Simple Unified Framework for Anomaly Detection in Deep Reinforcement
Learning
- Title(参考訳): 深層強化学習における異常検出のための簡易統一フレームワーク
- Authors: Hongming Zhang, Ke Sun, Bo Xu, Linglong Kong, Martin M\"uller
- Abstract要約: 深層強化学習(RL)における異常状態は、RLポリシーの範囲を超えている状態である。
本稿では,深部RLアルゴリズムのための簡易かつ効果的な異常検出フレームワークを提案する。
- 参考スコア(独自算出の注目度): 20.08390854681034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Abnormal states in deep reinforcement learning~(RL) are states that are
beyond the scope of an RL policy. Such states may make the RL system unsafe and
impede its deployment in real scenarios. In this paper, we propose a simple yet
effective anomaly detection framework for deep RL algorithms that
simultaneously considers random, adversarial and out-of-distribution~(OOD)
state outliers. In particular, we attain the class-conditional distributions
for each action class under the Gaussian assumption, and rely on these
distributions to discriminate between inliers and outliers based on Mahalanobis
Distance~(MD) and Robust Mahalanobis Distance. We conduct extensive experiments
on Atari games that verify the effectiveness of our detection strategies. To
the best of our knowledge, we present the first in-detail study of statistical
and adversarial anomaly detection in deep RL algorithms. This simple unified
anomaly detection paves the way towards deploying safe RL systems in real-world
applications.
- Abstract(参考訳): 深層強化学習における異常状態~(RL)は、RL政策の範囲を超えている状態である。
このような状態は、RLシステムの安全性を損なう可能性があり、実際のシナリオでのデプロイメントを妨げます。
本稿では,不規則,逆,外分布を同時に考慮した深部RLアルゴリズムのための簡易かつ効果的な異常検出フレームワークを提案する。
特に、ガウス的仮定の下で各作用クラスのクラス条件分布を取得し、これらの分布に依存して、マハラノビス距離~(MD)とロバスト・マハラノビス距離に基づく不等式と外れ値の判別を行う。
我々は,アタリゲームに対する広範な実験を行い,検出戦略の有効性を検証する。
我々の知る限り、深部RLアルゴリズムにおける統計的および逆方向の異常検出に関する最初の詳細な研究を示す。
この単純な統一異常検出は、現実世界のアプリケーションに安全なrlシステムをデプロイする道を開く。
関連論文リスト
- Leveraging Reward Consistency for Interpretable Feature Discovery in
Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。
本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。
我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文 参考訳(メタデータ) (2023-09-04T09:09:54Z) - Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - One-Step Distributional Reinforcement Learning [10.64435582017292]
簡単な一段階分散強化学習(OS-DistrRL)フレームワークを提案する。
当社のアプローチには,政策評価と統制の両面での統一理論があることが示されている。
ほぼ確実に収束解析を行う2つのOS-DistrRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-27T06:57:00Z) - Efficient Deep Reinforcement Learning Requires Regulating Overfitting [91.88004732618381]
本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。
検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
論文 参考訳(メタデータ) (2023-04-20T17:11:05Z) - Sample Efficient Deep Reinforcement Learning via Local Planning [21.420851589712626]
本研究は,シミュレータを用いた試料効率深部強化学習(RL)に焦点を当てる。
本稿では,この特性を利用した不確実性優先ローカルプランニング(UFLP)というアルゴリズムフレームワークを提案する。
本研究では,この簡単な手法により,難解な探索作業において,いくつかのベースラインRLアルゴリズムのサンプルコストを劇的に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-01-29T23:17:26Z) - Towards Open Set Video Anomaly Detection [11.944167192592905]
Open Set Video Anomaly Detection (OpenVAD) は、既知の異常と新しい異常の両方が存在するビデオデータから異常事象を識別することを目的としている。
本研究では, 深層学習 (EDL) と正規化フロー (NFs) をマルチインスタンス学習 (MIL) フレームワークに統合することにより, オープンVAD 問題に対する弱教師付き手法を開発した。
論文 参考訳(メタデータ) (2022-08-23T17:53:34Z) - Anomaly Rule Detection in Sequence Data [2.3757190901941736]
本稿では,一組のシーケンスからユーティリティを意識した外部規則の発見を可能にする,DUOSと呼ばれる新しい異常検出フレームワークを提案する。
本研究では,集団の異常性と実用性を両立させ,ユーティリティ・アウェア・アウトリー・ルール(UOSR)の概念を導入する。
論文 参考訳(メタデータ) (2021-11-29T23:52:31Z) - GalilAI: Out-of-Task Distribution Detection using Causal Active
Experimentation for Safe Transfer RL [11.058960131490903]
アウト・オブ・ディストリビューション(OOD)検出は教師あり学習においてよく研究されているトピックである。
本稿では,OOTD(Out-of-Task Distribution)検出という新しいタスクを提案する。
ガリレオ・ガリレイ(Galileo Galilei)に敬意を表して、我々の手法をガリライ(GalilAI)と名付けた。
論文 参考訳(メタデータ) (2021-10-29T01:45:56Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。