論文の概要: Policy Entropy for Out-of-Distribution Classification
- arxiv url: http://arxiv.org/abs/2005.12069v1
- Date: Mon, 25 May 2020 12:18:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 05:12:47.383456
- Title: Policy Entropy for Out-of-Distribution Classification
- Title(参考訳): out-of-distribution分類のポリシーエントロピー
- Authors: Andreas Sedlmeier and Robert M\"uller and Steffen Illium and Claudia
Linnhoff-Popien
- Abstract要約: 我々は,新しいポリシエントロピーに基づくアウト・オブ・ディストリビューション分類器PEOCを提案する。
深層強化学習における未確認状態を確実に検出する。
最先端の1クラス分類アルゴリズムに対して非常に競争力がある。
- 参考スコア(独自算出の注目度): 8.747840760772268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One critical prerequisite for the deployment of reinforcement learning
systems in the real world is the ability to reliably detect situations on which
the agent was not trained. Such situations could lead to potential safety risks
when wrong predictions lead to the execution of harmful actions. In this work,
we propose PEOC, a new policy entropy based out-of-distribution classifier that
reliably detects unencountered states in deep reinforcement learning. It is
based on using the entropy of an agent's policy as the classification score of
a one-class classifier. We evaluate our approach using a procedural environment
generator. Results show that PEOC is highly competitive against
state-of-the-art one-class classification algorithms on the evaluated
environments. Furthermore, we present a structured process for benchmarking
out-of-distribution classification in reinforcement learning.
- Abstract(参考訳): 実世界における強化学習システムの展開には,エージェントが訓練を受けていない状況を確実に検出する能力が不可欠である。
このような状況は、誤った予測が有害な行動の実行につながると、潜在的な安全リスクにつながる可能性がある。
本研究では, 深層強化学習における未確認状態を確実に検出する新しいポリシエントロピーであるPEOCを提案する。
エージェントのポリシーのエントロピーを1クラスの分類器の分類スコアとして利用する。
本手法は手続き環境生成器を用いて評価する。
その結果、peocは評価された環境において最先端の1クラス分類アルゴリズムと高い競合性を示す。
さらに,強化学習において,分布外分類をベンチマークするための構造化プロセスを提案する。
関連論文リスト
- Interpretable Reinforcement Learning with Multilevel Subgoal Discovery [77.34726150561087]
離散環境のための新しい強化学習モデルを提案する。
モデルでは、エージェントは確率的ルールの形で環境に関する情報を学習する。
学習には報酬関数は不要であり、エージェントは達成するための第一の目標のみを与える必要がある。
論文 参考訳(メタデータ) (2022-02-15T14:04:44Z) - Self-Certifying Classification by Linearized Deep Assignment [65.0100925582087]
そこで我々は,PAC-Bayesリスク認定パラダイム内で,グラフ上のメトリックデータを分類するための新しい深層予測器のクラスを提案する。
PAC-Bayesの最近の文献とデータに依存した先行研究に基づいて、この手法は仮説空間上の後続分布の学習を可能にする。
論文 参考訳(メタデータ) (2022-01-26T19:59:14Z) - Verified Probabilistic Policies for Deep Reinforcement Learning [6.85316573653194]
我々は、深い強化学習のための確率的政策を検証する問題に取り組む。
本稿では,マルコフ決定プロセスの間隔に基づく抽象的アプローチを提案する。
本稿では,抽象的解釈,混合整数線形プログラミング,エントロピーに基づく洗練,確率的モデルチェックを用いて,これらのモデルを構築・解決する手法を提案する。
論文 参考訳(メタデータ) (2022-01-10T23:55:04Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - CASA-B: A Unified Framework of Model-Free Reinforcement Learning [1.4566990078034239]
CASA-Bは、状態値、状態アクション値、ポリシーを見積もるアクター批判的なフレームワークです。
我々は,CASA-Bが政策評価と政策改善のための一貫した経路を統合することを証明した。
行動方針の任意の範囲へのエントロピーを明示的に制御するプログレッシブクローズドフォームエントロピー制御機構を提案する。
論文 参考訳(メタデータ) (2021-05-09T12:45:13Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Selective Classification via One-Sided Prediction [54.05407231648068]
片側予測(OSP)に基づく緩和は、実際に関係する高目標精度体制において、ほぼ最適カバレッジが得られるSCスキームをもたらす。
理論的には,SCとOSPのバウンダリ一般化を導出し,その手法が小さな誤差レベルでのカバレッジにおいて,技術手法の状態を強く上回ることを示す。
論文 参考訳(メタデータ) (2020-10-15T16:14:27Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - In Automation We Trust: Investigating the Role of Uncertainty in Active
Learning Systems [5.459797813771497]
分類の不確実性可視化と異なるアクティブラーニング(AL)クエリポリシーが自動分類システムにおけるアナリストの信頼にどのように影響するかを検討する。
問合せポリシーは,画像分類システムにおけるアナリストの信頼に大きく影響している。
本稿では,分類におけるアナリストの信頼に影響を及ぼす可能性のある,ALトレーニングフェーズで使用するオラクルクエリポリシと視覚化のセットを提案する。
論文 参考訳(メタデータ) (2020-04-02T00:52:49Z) - Uncertainty-Based Out-of-Distribution Classification in Deep
Reinforcement Learning [17.10036674236381]
アウト・オブ・ディストリビューションデータの誤予測は、機械学習システムにおける安全性の危機的状況を引き起こす可能性がある。
我々は不確実性に基づくOOD分類のためのフレームワークUBOODを提案する。
UBOODはアンサンブルに基づく推定器と組み合わせることで,信頼性の高い分類結果が得られることを示す。
論文 参考訳(メタデータ) (2019-12-31T09:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。