論文の概要: Generalized Bayesian deep reinforcement learning
- arxiv url: http://arxiv.org/abs/2412.11743v1
- Date: Mon, 16 Dec 2024 13:02:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:59:44.524636
- Title: Generalized Bayesian deep reinforcement learning
- Title(参考訳): 一般化ベイズ深層強化学習
- Authors: Shreya Sinha Roy, Richard G. Everitt, Christian P. Robert, Ritabrata Dutta,
- Abstract要約: マルコフ依存を仮定した深部生成モデルを用いて未知環境のダイナミクスをモデル化する。
これらのモデルに対する可能性関数が存在しないため、一般化された予測順序(または述語)スコアリング規則(SR)を学習することでそれらを訓練する。
政策学習では,後部分布に関する期待値関数を最大化することにより,最適な政策を学習するためのトンプソンサンプリング(ETS)を提案する。
- 参考スコア(独自算出の注目度): 2.469908534801392
- License:
- Abstract: Bayesian reinforcement learning (BRL) is a method that merges principles from Bayesian statistics and reinforcement learning to make optimal decisions in uncertain environments. Similar to other model-based RL approaches, it involves two key components: (1) Inferring the posterior distribution of the data generating process (DGP) modeling the true environment and (2) policy learning using the learned posterior. We propose to model the dynamics of the unknown environment through deep generative models assuming Markov dependence. In absence of likelihood functions for these models we train them by learning a generalized predictive-sequential (or prequential) scoring rule (SR) posterior. We use sequential Monte Carlo (SMC) samplers to draw samples from this generalized Bayesian posterior distribution. In conjunction, to achieve scalability in the high dimensional parameter space of the neural networks, we use the gradient based Markov chain Monte Carlo (MCMC) kernels within SMC. To justify the use of the prequential scoring rule posterior we prove a Bernstein-von Misses type theorem. For policy learning, we propose expected Thompson sampling (ETS) to learn the optimal policy by maximizing the expected value function with respect to the posterior distribution. This improves upon traditional Thompson sampling (TS) and its extensions which utilize only one sample drawn from the posterior distribution. This improvement is studied both theoretically and using simulation studies assuming discrete action and state-space. Finally we successfully extend our setup for a challenging problem with continuous action space without theoretical guarantees.
- Abstract(参考訳): ベイジアン強化学習(英: Bayesian reinforcement learning, BRL)は、ベイジアン統計学と強化学習を融合して、不確実な環境で最適な決定を行う手法である。
他のモデルベースRLアプローチと同様に、(1)真の環境をモデル化したデータ生成プロセス(DGP)の後部分布の推測と(2)学習した後部構造を用いたポリシー学習の2つの重要な要素を含む。
マルコフ依存を仮定した深部生成モデルを用いて未知環境のダイナミクスをモデル化する。
これらのモデルに対する可能性関数が存在しないため、一般化された予測順序(または述語)スコアリング規則(SR)を学習することでそれらを訓練する。
我々は、この一般化ベイズ分布からサンプルを抽出するために、シーケンシャルモンテカルロ (SMC) サンプルを用いる。
ニューラルネットワークの高次元パラメータ空間におけるスケーラビリティを実現するために,我々は,MCC内の勾配型マルコフ連鎖モンテカルロ(MCMC)カーネルを用いる。
逐次スコアリング規則を後続で使用することを正当化するために、バーンスタイン・ヴォン・ミスズの型定理を証明する。
政策学習では,後部分布に関する期待値関数を最大化することにより,最適な政策を学習するためのトンプソンサンプリング(ETS)を提案する。
これにより、従来のトンプソンサンプリング(TS)とその拡張が改善され、後部分布から引き出された1つのサンプルのみが利用される。
この改善は、理論上も、離散的な作用と状態空間を仮定したシミュレーション研究の両方を用いて研究されている。
最後に、理論的な保証なしに連続的なアクション空間における挑戦的な問題に対するセットアップをうまく拡張する。
関連論文リスト
- von Mises Quasi-Processes for Bayesian Circular Regression [57.88921637944379]
円値ランダム関数上の表現的および解釈可能な分布の族を探索する。
結果の確率モデルは、統計物理学における連続スピンモデルと関係を持つ。
後続推論のために、高速マルコフ連鎖モンテカルロサンプリングに寄与するストラトノビッチのような拡張を導入する。
論文 参考訳(メタデータ) (2024-06-19T01:57:21Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Learning Merton's Strategies in an Incomplete Market: Recursive Entropy
Regularization and Biased Gaussian Exploration [11.774563966512709]
我々は、未知市場を探索して最適なポートフォリオポリシーを直接学習するために、強化学習(RL)アプローチを採用する。
本稿では,結果の誤りを解析し,探索のレベルが学習方針にどのように影響するかを示す。
論文 参考訳(メタデータ) (2023-12-19T02:14:13Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - Langevin Monte Carlo for Contextual Bandits [72.00524614312002]
Langevin Monte Carlo Thompson Sampling (LMC-TS) が提案されている。
提案アルゴリズムは,文脈的帯域幅の特別な場合において,最高のトンプソンサンプリングアルゴリズムと同じサブ線形残差を達成できることを示す。
論文 参考訳(メタデータ) (2022-06-22T17:58:23Z) - What Are Bayesian Neural Network Posteriors Really Like? [63.950151520585024]
ハミルトニアンモンテカルロは、標準およびディープアンサンブルよりも大きな性能向上を達成できることを示す。
また,深部分布は標準SGLDとHMCに類似しており,標準変動推論に近いことが示された。
論文 参考訳(メタデータ) (2021-04-29T15:38:46Z) - Model-based Reinforcement Learning for Continuous Control with Posterior
Sampling [10.91557009257615]
連続状態空間における強化学習(PSRL)のためのモデルベース後方サンプリングについて検討した。
MPC-PSRLはモデルに基づく後部サンプリングアルゴリズムであり,行動選択のためのモデル予測制御を行う。
論文 参考訳(メタデータ) (2020-11-20T21:00:31Z) - Bayes-Adaptive Deep Model-Based Policy Optimisation [4.675381958034012]
本稿では,モデル不確実性を捕捉し,サンプル効率のよいポリシ最適化を実現する,ベイズ型(深度)モデルベース強化学習法(RoMBRL)を提案する。
ベイズ適応マルコフ決定過程(BAMDP)としてモデルに基づく政策最適化問題を定式化することを提案する。
また,RoMBRLは,サンプルの複雑度やタスク性能の観点から,多くの困難な制御ベンチマークタスクにおいて,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-29T21:17:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。