論文の概要: Principled Exploration via Optimistic Bootstrapping and Backward
Induction
- arxiv url: http://arxiv.org/abs/2105.06022v2
- Date: Mon, 17 May 2021 00:22:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-18 11:50:22.719582
- Title: Principled Exploration via Optimistic Bootstrapping and Backward
Induction
- Title(参考訳): 最適ブートストラップと後方誘導による原理探索
- Authors: Chenjia Bai, Lingxiao Wang, Lei Han, Jianye Hao, Animesh Garg, Peng
Liu, Zhaoran Wang
- Abstract要約: 最適ブートストラップ・バックワード誘導(OB2I)による深層強化学習(DRL)の原理的探索法を提案する。
OB2IはDRLの非パラメトリックブートストラップを介して汎用UCB結合を構築する。
提案する UCB-bonus と LSVI-UCB の理論的接続を線形に構築する。
- 参考スコア(独自算出の注目度): 84.78836146128238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One principled approach for provably efficient exploration is incorporating
the upper confidence bound (UCB) into the value function as a bonus. However,
UCB is specified to deal with linear and tabular settings and is incompatible
with Deep Reinforcement Learning (DRL). In this paper, we propose a principled
exploration method for DRL through Optimistic Bootstrapping and Backward
Induction (OB2I). OB2I constructs a general-purpose UCB-bonus through
non-parametric bootstrap in DRL. The UCB-bonus estimates the epistemic
uncertainty of state-action pairs for optimistic exploration. We build
theoretical connections between the proposed UCB-bonus and the LSVI-UCB in a
linear setting. We propagate future uncertainty in a time-consistent manner
through episodic backward update, which exploits the theoretical advantage and
empirically improves the sample-efficiency. Our experiments in the MNIST maze
and Atari suite suggest that OB2I outperforms several state-of-the-art
exploration approaches.
- Abstract(参考訳): 高い信頼度境界(UCB)をボーナスとして値関数に組み込むことが、有効に探索するための原則的なアプローチである。
しかし、UTBは線形および表の設定を扱うよう指定されており、Deep Reinforcement Learning (DRL)と互換性がない。
本稿では,楽観的ブートストラップと逆誘導(ob2i)によるdrlの原理的探索法を提案する。
OB2IはDRLの非パラメトリックブートストラップを通じて汎用的なUCB結合を構築する。
UCB結合は、楽観的な探索のための状態-作用対の疫学的な不確実性を推定する。
提案する UCB-bonus と LSVI-UCB の理論的接続を線形に構築する。
我々は,理論上の利点を生かしてサンプル効率を実証的に向上させるエピソジックな後方更新を通じて,将来的な不確実性を時間的一貫性を持って伝播する。
MNIST迷路とアタリスイートの実験では、OB2Iがいくつかの最先端探査手法より優れていることが示唆された。
関連論文リスト
- Offline Behavior Distillation [57.6900189406964]
大規模な強化学習(RL)データは通常、インタラクションを必要とせずにポリシをオフラインにトレーニングするために収集される。
準最適RLデータから限られた専門家の行動データを合成するオフライン行動蒸留(OBD)を定式化する。
そこで本研究では, 蒸留データとオフラインデータ, ほぼ専門的ポリシーのいずれにおいても, 蒸留性能を判断的差異によって測定する2つの単純OBD目標であるDBCとPBCを提案する。
論文 参考訳(メタデータ) (2024-10-30T06:28:09Z) - Preference-Guided Reinforcement Learning for Efficient Exploration [7.83845308102632]
LOPE: Learning Online with trajectory Preference guidancE, a end-to-end preference-guided RL framework。
我々の直感では、LOPEは人的フィードバックをガイダンスとして考慮し、オンライン探索の焦点を直接調整する。
LOPEは収束率と全体的な性能に関して、最先端のいくつかの手法より優れている。
論文 参考訳(メタデータ) (2024-07-09T02:11:12Z) - Accelerating material discovery with a threshold-driven hybrid
acquisition policy-based Bayesian optimization [4.021352247826289]
本稿では,Threshold-Driven UCB-EI Bayesian Optimization (TDUE-BO)法を提案する。
物質発見過程を最適化するために、上信頼境界(UCB)と期待改善関数(EI)の強みを動的に統合する。
RMSEのスコアと収束効率の観点から,EI法とCB法を併用したBO法よりも高い近似と最適化性能を示した。
論文 参考訳(メタデータ) (2023-11-16T06:02:48Z) - Model-based Causal Bayesian Optimization [74.78486244786083]
乗算重み付き因果ベイズ最適化のための最初のアルゴリズム(CBO-MW)を提案する。
グラフ関連の量に自然に依存するCBO-MWに対する後悔の限界を導出する。
我々の実験は、共有モビリティシステムにおいて、ユーザの需要パターンを学習するためにCBO-MWをどのように使用できるかの現実的なデモを含む。
論文 参考訳(メタデータ) (2023-07-31T13:02:36Z) - BOF-UCB: A Bayesian-Optimistic Frequentist Algorithm for Non-Stationary
Contextual Bandits [16.59103967569845]
本研究では,非定常環境におけるコンテキスト線形帯域に対するベイズ・最適周波数帯域上信頼境界(BOF-UCB)アルゴリズムを提案する。
このベイジアンと頻繁な原理の独特な組み合わせは、動的設定における適応性と性能を高める。
論文 参考訳(メタデータ) (2023-07-07T13:29:07Z) - Dynamic Exploration-Exploitation Trade-Off in Active Learning Regression
with Bayesian Hierarchical Modeling [4.132882666134921]
探査・探査を同時に検討する方法は、最適でないかもしれないトレードオフを制御するために、固定的またはアドホックな手段を同時に採用する。
我々は,BHEEMと呼ばれるベイズ的階層的アプローチを開発し,探査・探査のトレードオフを動的にバランスさせる。
論文 参考訳(メタデータ) (2023-04-16T01:40:48Z) - Rewarding Episodic Visitation Discrepancy for Exploration in
Reinforcement Learning [64.8463574294237]
本稿では,効率的かつ定量的な探索手法として,Rewarding Episodic Visitation Discrepancy (REVD)を提案する。
REVDは、R'enyiの発散に基づくエピソード間の訪問不一致を評価することによって、本質的な報酬を提供する。
PyBullet Robotics EnvironmentsとAtariゲームでテストされている。
論文 参考訳(メタデータ) (2022-09-19T08:42:46Z) - BADDr: Bayes-Adaptive Deep Dropout RL for POMDPs [22.78390558602203]
BRLの表現非依存な定式化を部分的に観測可能とし,従来のモデルを1つの理論的傘の下で統一する。
また,新しい導出手法であるBayes-Adaptive Deep Dropout rl (BADDr)を提案する。
論文 参考訳(メタデータ) (2022-02-17T19:48:35Z) - High-Dimensional Bayesian Optimisation with Variational Autoencoders and
Deep Metric Learning [119.91679702854499]
本研究では,高次元の入力空間上でベイズ最適化を行うためのディープ・メトリック・ラーニングに基づく手法を提案する。
このような帰納バイアスを、利用可能なラベル付きデータの1%だけを用いて達成する。
実証的な貢献として、実世界の高次元ブラックボックス最適化問題に対する最先端の結果を示す。
論文 参考訳(メタデータ) (2021-06-07T13:35:47Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。