論文の概要: Policy Entropy for Out-of-Distribution Classification
- arxiv url: http://arxiv.org/abs/2005.12069v1
- Date: Mon, 25 May 2020 12:18:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 05:12:47.383456
- Title: Policy Entropy for Out-of-Distribution Classification
- Title(参考訳): out-of-distribution分類のポリシーエントロピー
- Authors: Andreas Sedlmeier and Robert M\"uller and Steffen Illium and Claudia
Linnhoff-Popien
- Abstract要約: 我々は,新しいポリシエントロピーに基づくアウト・オブ・ディストリビューション分類器PEOCを提案する。
深層強化学習における未確認状態を確実に検出する。
最先端の1クラス分類アルゴリズムに対して非常に競争力がある。
- 参考スコア(独自算出の注目度): 8.747840760772268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One critical prerequisite for the deployment of reinforcement learning
systems in the real world is the ability to reliably detect situations on which
the agent was not trained. Such situations could lead to potential safety risks
when wrong predictions lead to the execution of harmful actions. In this work,
we propose PEOC, a new policy entropy based out-of-distribution classifier that
reliably detects unencountered states in deep reinforcement learning. It is
based on using the entropy of an agent's policy as the classification score of
a one-class classifier. We evaluate our approach using a procedural environment
generator. Results show that PEOC is highly competitive against
state-of-the-art one-class classification algorithms on the evaluated
environments. Furthermore, we present a structured process for benchmarking
out-of-distribution classification in reinforcement learning.
- Abstract(参考訳): 実世界における強化学習システムの展開には,エージェントが訓練を受けていない状況を確実に検出する能力が不可欠である。
このような状況は、誤った予測が有害な行動の実行につながると、潜在的な安全リスクにつながる可能性がある。
本研究では, 深層強化学習における未確認状態を確実に検出する新しいポリシエントロピーであるPEOCを提案する。
エージェントのポリシーのエントロピーを1クラスの分類器の分類スコアとして利用する。
本手法は手続き環境生成器を用いて評価する。
その結果、peocは評価された環境において最先端の1クラス分類アルゴリズムと高い競合性を示す。
さらに,強化学習において,分布外分類をベンチマークするための構造化プロセスを提案する。
関連論文リスト
- Proximal Ranking Policy Optimization for Practical Safety in Counterfactual Learning to Rank [64.44255178199846]
本稿では,ユーザ行動に関する仮定を伴わずにデプロイの安全性を提供する,PRPO (proximal ranking Policy Optimization) という新しいアプローチを提案する。
PRPOは、安全なランキングモデルとは相容れないランキング行動を学ぶためのインセンティブを取り除きます。
実験の結果,PRPOは既存の安全逆性評価手法よりも高い性能を示すことがわかった。
論文 参考訳(メタデータ) (2024-09-15T22:22:27Z) - Hierarchical Selective Classification [17.136832159667204]
本稿では,階層型選択分類を導入し,階層型選択分類を階層型に拡張する。
まず階層的リスクとカバレッジを形式化し、階層的リスクカバレッジ曲線を導入します。
次に、階層的選択分類のためのアルゴリズムを開発し、高い確率で目標精度の制約を保証する効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-19T12:24:30Z) - PACER: A Fully Push-forward-based Distributional Reinforcement Learning Algorithm [28.48626438603237]
PACERは、流通批評家、俳優、サンプルベースの奨励者で構成されている。
プッシュフォワード演算子は、それぞれリターン分布とポリシーをモデル化するために、批評家とアクターの両方で利用される。
プッシュフォワードポリシー更新のために、サンプルベースのユーティリティ値ポリシー勾配を確立する。
論文 参考訳(メタデータ) (2023-06-11T09:45:31Z) - Interpretable Reinforcement Learning with Multilevel Subgoal Discovery [77.34726150561087]
離散環境のための新しい強化学習モデルを提案する。
モデルでは、エージェントは確率的ルールの形で環境に関する情報を学習する。
学習には報酬関数は不要であり、エージェントは達成するための第一の目標のみを与える必要がある。
論文 参考訳(メタデータ) (2022-02-15T14:04:44Z) - Self-Certifying Classification by Linearized Deep Assignment [65.0100925582087]
そこで我々は,PAC-Bayesリスク認定パラダイム内で,グラフ上のメトリックデータを分類するための新しい深層予測器のクラスを提案する。
PAC-Bayesの最近の文献とデータに依存した先行研究に基づいて、この手法は仮説空間上の後続分布の学習を可能にする。
論文 参考訳(メタデータ) (2022-01-26T19:59:14Z) - Verified Probabilistic Policies for Deep Reinforcement Learning [6.85316573653194]
我々は、深い強化学習のための確率的政策を検証する問題に取り組む。
本稿では,マルコフ決定プロセスの間隔に基づく抽象的アプローチを提案する。
本稿では,抽象的解釈,混合整数線形プログラミング,エントロピーに基づく洗練,確率的モデルチェックを用いて,これらのモデルを構築・解決する手法を提案する。
論文 参考訳(メタデータ) (2022-01-10T23:55:04Z) - CASA-B: A Unified Framework of Model-Free Reinforcement Learning [1.4566990078034239]
CASA-Bは、状態値、状態アクション値、ポリシーを見積もるアクター批判的なフレームワークです。
我々は,CASA-Bが政策評価と政策改善のための一貫した経路を統合することを証明した。
行動方針の任意の範囲へのエントロピーを明示的に制御するプログレッシブクローズドフォームエントロピー制御機構を提案する。
論文 参考訳(メタデータ) (2021-05-09T12:45:13Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Selective Classification via One-Sided Prediction [54.05407231648068]
片側予測(OSP)に基づく緩和は、実際に関係する高目標精度体制において、ほぼ最適カバレッジが得られるSCスキームをもたらす。
理論的には,SCとOSPのバウンダリ一般化を導出し,その手法が小さな誤差レベルでのカバレッジにおいて,技術手法の状態を強く上回ることを示す。
論文 参考訳(メタデータ) (2020-10-15T16:14:27Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。