論文の概要: Exploration via Epistemic Value Estimation
- arxiv url: http://arxiv.org/abs/2303.04012v1
- Date: Tue, 7 Mar 2023 16:25:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 14:35:27.636121
- Title: Exploration via Epistemic Value Estimation
- Title(参考訳): 疫学的価値推定による探索
- Authors: Simon Schmitt, John Shawe-Taylor, Hado van Hasselt
- Abstract要約: 本稿では、逐次意思決定とニューラルネットワーク関数近似器との互換性のあるレシピを提案する。
全てのパラメータに対して引き込み可能な後部エージェントを装備し、そこからてんかんの値の不確実性を効率的に計算することができる。
実験により、EVEのレシピはハードな探査作業における効率的な探索を容易にすることが確認された。
- 参考スコア(独自算出の注目度): 22.54793586116019
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How to efficiently explore in reinforcement learning is an open problem. Many
exploration algorithms employ the epistemic uncertainty of their own value
predictions -- for instance to compute an exploration bonus or upper confidence
bound. Unfortunately the required uncertainty is difficult to estimate in
general with function approximation.
We propose epistemic value estimation (EVE): a recipe that is compatible with
sequential decision making and with neural network function approximators. It
equips agents with a tractable posterior over all their parameters from which
epistemic value uncertainty can be computed efficiently.
We use the recipe to derive an epistemic Q-Learning agent and observe
competitive performance on a series of benchmarks. Experiments confirm that the
EVE recipe facilitates efficient exploration in hard exploration tasks.
- Abstract(参考訳): 強化学習を効率的に探究する方法は、オープンな問題である。
多くの探索アルゴリズムは、例えば探索ボーナスや高い信頼度を求めるために、自身の値予測の認識論的不確実性を用いる。
残念ながら、必要な不確実性は一般に関数近似で推定することは困難である。
本稿では,シーケンシャルな意思決定とニューラルネットワーク機能近似に適合するレシピであるてんかん評価(EVE: epistemic value Estimation)を提案する。
認識値の不確かさを効率的に計算できる全てのパラメーターに対して、薬品に従属可能な後続性を与える。
このレシピを用いて、認識型q-learningエージェントを導出し、一連のベンチマークで競合性能を観察する。
実験により、EVEのレシピはハードな探査作業における効率的な探索を容易にすることが確認された。
関連論文リスト
- Automating reward function configuration for drug design [0.0]
本稿では,実験データのみに依存する自動報酬設定のための新しい手法を提案する。
提案アルゴリズムは,人間の定義した関数の精度を予測的に上回る報酬関数を生成する。
論文 参考訳(メタデータ) (2023-12-15T15:09:16Z) - Equation Discovery with Bayesian Spike-and-Slab Priors and Efficient Kernels [57.46832672991433]
ケルネル学習とBayesian Spike-and-Slab pres (KBASS)に基づく新しい方程式探索法を提案する。
カーネルレグレッションを用いてターゲット関数を推定する。これはフレキシブルで表現力があり、データ空間やノイズに対してより堅牢である。
我々は,効率的な後部推論と関数推定のための予測伝搬予測最大化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-10-09T03:55:09Z) - DUDES: Deep Uncertainty Distillation using Ensembles for Semantic
Segmentation [11.099838952805325]
予測の不確実性の定量化は、そのようなアプリケーションにディープニューラルネットワークを使用するための、有望な取り組みである。
本稿では,アンサンブルを用いた深部不確実性蒸留(DuDES)と呼ばれる,効率的かつ確実な不確実性評価手法を提案する。
DUDESはディープ・アンサンブル(Deep Ensemble)による学生-教師の蒸留を適用し、予測の不確かさを1つの前方パスで正確に推定する。
論文 参考訳(メタデータ) (2023-03-17T08:56:27Z) - Model-Based Uncertainty in Value Functions [89.31922008981735]
MDP上の分布によって引き起こされる値の分散を特徴付けることに重点を置いている。
従来の作業は、いわゆる不確実性ベルマン方程式を解くことで、値よりも後方の分散を境界にしている。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式を提案する。
論文 参考訳(メタデータ) (2023-02-24T09:18:27Z) - Rewarding Episodic Visitation Discrepancy for Exploration in
Reinforcement Learning [64.8463574294237]
本稿では,効率的かつ定量的な探索手法として,Rewarding Episodic Visitation Discrepancy (REVD)を提案する。
REVDは、R'enyiの発散に基づくエピソード間の訪問不一致を評価することによって、本質的な報酬を提供する。
PyBullet Robotics EnvironmentsとAtariゲームでテストされている。
論文 参考訳(メタデータ) (2022-09-19T08:42:46Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Explainable Deep Reinforcement Learning Using Introspection in a
Non-episodic Task [1.2735892003153293]
エージェントの意思決定プロセスを説明するベースとして使用されるQ値を成功の確率に変換するイントロスペクションベースの方法。
Introspection method to be used in-episodic task, and try it in a continuous Atari game scenario with the Rainbow algorithm。
論文 参考訳(メタデータ) (2021-08-18T02:49:49Z) - Temporal Difference Uncertainties as a Signal for Exploration [76.6341354269013]
強化学習における探索の効果的なアプローチは、最適な政策に対するエージェントの不確実性に依存することである。
本稿では,評価値のバイアスや時間的に矛盾する点を強調した。
本稿では,時間差誤差の分布の導出に依存する値関数の不確かさを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-10-05T18:11:22Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Scalable Uncertainty for Computer Vision with Functional Variational
Inference [18.492485304537134]
関数空間における変分推論の定式化を利用する。
選択したCNNアーキテクチャを1つのフォワードパスのコストで予測不確実性を推定する。
本研究では,高次元タスクの文脈で高速な学習を可能にする数値的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-06T19:09:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。