論文の概要: How to Enable Uncertainty Estimation in Proximal Policy Optimization
- arxiv url: http://arxiv.org/abs/2210.03649v1
- Date: Fri, 7 Oct 2022 15:56:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 13:36:04.806121
- Title: How to Enable Uncertainty Estimation in Proximal Policy Optimization
- Title(参考訳): 政策最適化における不確実性推定の方法
- Authors: Eugene Bykovets, Yannick Metz, Mennatallah El-Assady, Daniel A. Keim,
Joachim M. Buhmann
- Abstract要約: 既存の不確実性推定手法は, 都市深部RLで広く採用されていない。
本稿では,アクタ・クリティカルRLアルゴリズムにおける不確実性とOODの定義を提案する。
本稿では,最近提案されたMasksemblesの手法が,調査手法間で好適なバランスをとることを実験的に示す。
- 参考スコア(独自算出の注目度): 20.468991996052953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While deep reinforcement learning (RL) agents have showcased strong results
across many domains, a major concern is their inherent opaqueness and the
safety of such systems in real-world use cases. To overcome these issues, we
need agents that can quantify their uncertainty and detect out-of-distribution
(OOD) states. Existing uncertainty estimation techniques, like Monte-Carlo
Dropout or Deep Ensembles, have not seen widespread adoption in on-policy deep
RL. We posit that this is due to two reasons: concepts like uncertainty and OOD
states are not well defined compared to supervised learning, especially for
on-policy RL methods. Secondly, available implementations and comparative
studies for uncertainty estimation methods in RL have been limited. To overcome
the first gap, we propose definitions of uncertainty and OOD for Actor-Critic
RL algorithms, namely, proximal policy optimization (PPO), and present possible
applicable measures. In particular, we discuss the concepts of value and policy
uncertainty. The second point is addressed by implementing different
uncertainty estimation methods and comparing them across a number of
environments. The OOD detection performance is evaluated via a custom
evaluation benchmark of in-distribution (ID) and OOD states for various RL
environments. We identify a trade-off between reward and OOD detection
performance. To overcome this, we formulate a Pareto optimization problem in
which we simultaneously optimize for reward and OOD detection performance. We
show experimentally that the recently proposed method of Masksembles strikes a
favourable balance among the survey methods, enabling high-quality uncertainty
estimation and OOD detection while matching the performance of original RL
agents.
- Abstract(参考訳): 深層強化学習(RL)エージェントは、多くの領域で強力な結果を示したが、主な関心事は、現実世界のユースケースにおいて、そのようなシステムの本来の不透明さと安全性である。
これらの問題を克服するには、不確実性を定量化し、分散状態(ood)を検出するエージェントが必要です。
モンテカルロドロップアウトやディープアンサンブルのような既存の不確実性推定技術は、オンポリシーのディープrlでは広く採用されていない。
不確実性やood状態といった概念は、特にオンポリシーrl法において、教師付き学習と比較して十分に定義されていない。
第二に、RLにおける不確実性推定手法に関する実装と比較研究は制限されている。
最初のギャップを克服するために,アクタ・クリティカルRLアルゴリズムにおける不確実性の定義とOOD,すなわち近似ポリシー最適化(PPO)を提案する。
特に、価値と政策の不確実性の概念について論じる。
第2の点は、異なる不確実性推定方法を実装し、それらを複数の環境で比較することによって解決される。
OOD検出性能は、様々なRL環境におけるIDおよびOOD状態のカスタム評価ベンチマークにより評価される。
我々は報酬とOOD検出性能のトレードオフを特定する。
そこで我々は,報酬とOOD検出性能を同時に最適化するPareto最適化問題を定式化する。
本稿では,最近提案されたMasksembles法が,従来のRLエージェントの性能に適合しながら,高品質な不確実性評価とOOD検出を可能にするために,調査方法のバランスが良好であることを実験的に示す。
関連論文リスト
- The Best of Both Worlds: On the Dilemma of Out-of-distribution Detection [75.65876949930258]
アウト・オブ・ディストリビューション(OOD)検出はモデル信頼性に不可欠である。
我々は,OODの一般化能力を秘かに犠牲にすることで,最先端手法のOOD検出性能が向上することを示す。
論文 参考訳(メタデータ) (2024-10-12T07:02:04Z) - Dissecting Out-of-Distribution Detection and Open-Set Recognition: A Critical Analysis of Methods and Benchmarks [17.520137576423593]
我々は,コミュニティ内の2つの大きなサブフィールドの総合的なビュー – アウト・オブ・ディストリビューション(OOD)検出とオープンセット認識(OSR) – を提供することを目指している。
我々は,OOD検出における最先端手法とOSR設定との厳密な相互評価を行い,それらの手法の性能の強い相関関係を同定する。
我々は,OOD検出とOSRによって取り組まれている問題を解消する,より大規模なベンチマーク設定を提案する。
論文 参考訳(メタデータ) (2024-08-29T17:55:07Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Adaptive Uncertainty Estimation via High-Dimensional Testing on Latent
Representations [28.875819909902244]
不確実性推定は、訓練されたディープニューラルネットワークの信頼性を評価することを目的としている。
既存の不確実性推定アプローチは、低次元分布仮定に依存している。
本研究では,不確実性推定のためのデータ適応型高次元仮説テストを用いた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-25T12:22:18Z) - Beyond AUROC & co. for evaluating out-of-distribution detection
performance [50.88341818412508]
安全(r)AIとの関連性を考えると,OOD検出法の比較の基礎が実用的ニーズと整合しているかどうかを検討することが重要である。
我々は,IDとOODの分離が不十分なことを明示する新しい指標であるAUTC(Area Under the Threshold Curve)を提案する。
論文 参考訳(メタデータ) (2023-06-26T12:51:32Z) - Improving Out-of-Distribution Detection via Epistemic Uncertainty
Adversarial Training [29.4569172720654]
我々は,ドロップアウトアンサンブルによって予測される不確実性の攻撃を組み込んだ,単純な対向訓練手法を開発した。
本手法は,OOD検出性能を標準データ上で向上させる(逆向きではない)とともに,ほぼランダムな推定性能から$geq 0.75$まで,標準化された部分AUCを改善する。
論文 参考訳(メタデータ) (2022-09-05T14:32:19Z) - Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement
Learning [125.8224674893018]
オフライン強化学習(RL)は、環境を探索することなく、以前に収集したデータセットからポリシーを学ぶことを目的としている。
オフポリシーアルゴリズムをオフラインRLに適用することは、通常、オフ・オブ・ディストリビューション(OOD)アクションによって引き起こされる外挿エラーによって失敗する。
本稿では,PBRL(Pepsimistic Bootstrapping for offline RL)を提案する。
論文 参考訳(メタデータ) (2022-02-23T15:27:16Z) - Sample Efficient Deep Reinforcement Learning via Uncertainty Estimation [12.415463205960156]
モデルフリー深部強化学習(RL)アルゴリズムでは、ノイズ値推定を用いて政策評価と最適化を監督し、サンプル効率を損なう。
RLで発生するノイズ管理における不確実性の原因を系統的に分析する。
本稿では,2つの相補的不確実性推定手法がQ値と環境の両方を考慮し,ノイズ管理の負の影響を緩和する手法を提案する。
論文 参考訳(メタデータ) (2022-01-05T15:46:06Z) - On the Practicality of Deterministic Epistemic Uncertainty [106.06571981780591]
決定論的不確実性法(DUM)は,分布外データの検出において高い性能を達成する。
DUMが十分に校正されており、現実のアプリケーションにシームレスにスケールできるかどうかは不明だ。
論文 参考訳(メタデータ) (2021-07-01T17:59:07Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Uncertainty-Based Out-of-Distribution Classification in Deep
Reinforcement Learning [17.10036674236381]
アウト・オブ・ディストリビューションデータの誤予測は、機械学習システムにおける安全性の危機的状況を引き起こす可能性がある。
我々は不確実性に基づくOOD分類のためのフレームワークUBOODを提案する。
UBOODはアンサンブルに基づく推定器と組み合わせることで,信頼性の高い分類結果が得られることを示す。
論文 参考訳(メタデータ) (2019-12-31T09:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。