論文の概要: Bayesian Bellman Operators
- arxiv url: http://arxiv.org/abs/2106.05012v1
- Date: Wed, 9 Jun 2021 12:20:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 15:03:26.479998
- Title: Bayesian Bellman Operators
- Title(参考訳): ベイジアンベルマン作用素
- Authors: Matthew Fellows, Kristian Hartikainen, Shimon Whiteson
- Abstract要約: ベイズ強化学習(RL)の新しい視点について紹介する。
我々のフレームワークは、ブートストラップが導入されたとき、モデルなしアプローチは実際には値関数ではなくベルマン作用素よりも後部を推測する、という洞察に動機づけられている。
- 参考スコア(独自算出の注目度): 55.959376449737405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a novel perspective on Bayesian reinforcement learning (RL);
whereas existing approaches infer a posterior over the transition distribution
or Q-function, we characterise the uncertainty in the Bellman operator. Our
Bayesian Bellman operator (BBO) framework is motivated by the insight that when
bootstrapping is introduced, model-free approaches actually infer a posterior
over Bellman operators, not value functions. In this paper, we use BBO to
provide a rigorous theoretical analysis of model-free Bayesian RL to better
understand its relationshipto established frequentist RL methodologies. We
prove that Bayesian solutions are consistent with frequentist RL solutions,
even when approximate inference isused, and derive conditions for which
convergence properties hold. Empirically, we demonstrate that algorithms
derived from the BBO framework have sophisticated deep exploration properties
that enable them to solve continuous control tasks at which state-of-the-art
regularised actor-critic algorithms fail catastrophically
- Abstract(参考訳): ベイズ強化学習(RL)の新たな視点を導入し、既存のアプローチでは遷移分布やQ-関数よりも後方を推測するが、ベルマン作用素の不確かさを特徴付ける。
当社のbayesian bellman operator(bbo)フレームワークは、ブートストラップが導入されたとき、モデルフリーアプローチが実際にベルマン演算子の後方を推測し、値関数ではないという洞察によって動機付けられたものです。
本稿では,BBOを用いてモデルフリーベイズRLの厳密な理論的解析を行い,その関係性をよりよく理解する。
ベイズ解は近似推論が使用されるときでさえ、頻繁な rl 解と一致し、収束性が成り立つ条件が導かれることが証明される。
実証的に、BBOフレームワークから派生したアルゴリズムは、最先端の正規化アクター批判アルゴリズムが破滅的に失敗する継続的制御タスクを解くことができる洗練された深層探査特性を持つことを示した。
関連論文リスト
- Parameterized Projected Bellman Operator [64.129598593852]
近似値反復(英: Approximate value iteration, AVI)は、強化学習(RL)のためのアルゴリズムの一群である。
本稿ではベルマン作用素の近似版を学習する新しい代替手法を提案する。
逐次決定問題に対するPBO学習のための最適化問題を定式化する。
論文 参考訳(メタデータ) (2023-12-20T09:33:16Z) - Bayesian Exploration Networks [28.885750299203433]
本稿では,新しいベイズ的モデルフリーな定式化を導入し,モデルフリーなアプローチがベイズ最適政策をもたらすことを示す最初の分析を行った。
モデルフリーベイズ最適性に向けた第一歩として,正規化フローを用いたベイズ探索ネットワーク(BEN)を導入し,ベルマン作用素のアレタリック不確実性(密度推定)とエピステマティック不確実性(変動推論)の両方をモデル化する。
完全最適化の限界において、BENは真のベイズ最適化ポリシーを学習するが、変分期待最大化と同様に、部分最適化は我々のアプローチを引き付けることができる。
論文 参考訳(メタデータ) (2023-08-24T19:35:58Z) - Model-based Causal Bayesian Optimization [74.78486244786083]
乗算重み付き因果ベイズ最適化のための最初のアルゴリズム(CBO-MW)を提案する。
グラフ関連の量に自然に依存するCBO-MWに対する後悔の限界を導出する。
我々の実験は、共有モビリティシステムにおいて、ユーザの需要パターンを学習するためにCBO-MWをどのように使用できるかの現実的なデモを含む。
論文 参考訳(メタデータ) (2023-07-31T13:02:36Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - BOF-UCB: A Bayesian-Optimistic Frequentist Algorithm for Non-Stationary
Contextual Bandits [16.59103967569845]
本研究では,非定常環境におけるコンテキスト線形帯域に対するベイズ・最適周波数帯域上信頼境界(BOF-UCB)アルゴリズムを提案する。
このベイジアンと頻繁な原理の独特な組み合わせは、動的設定における適応性と性能を高める。
論文 参考訳(メタデータ) (2023-07-07T13:29:07Z) - Bayesian Risk-Averse Q-Learning with Streaming Observations [7.330349128557128]
我々は,学習エージェントが模擬学習環境から学習する,堅牢な強化学習問題を考える。
エージェントの制御外にある実環境からの観測が定期的に到着する。
実環境からのストリーミング観測でBRMDPを解くための多段階ベイズリスク逆Q-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-05-18T20:48:50Z) - Model-based Causal Bayesian Optimization [78.120734120667]
モデルに基づく因果ベイズ最適化(MCBO)を提案する。
MCBOは介入と逆のペアをモデリングするのではなく、完全なシステムモデルを学ぶ。
標準的なベイズ最適化とは異なり、我々の取得関数は閉形式では評価できない。
論文 参考訳(メタデータ) (2022-11-18T14:28:21Z) - Regularization Guarantees Generalization in Bayesian Reinforcement
Learning through Algorithmic Stability [48.62272919754204]
ベイズ RL の一般化を、おそらくほぼ正しい (PAC) フレームワークで研究する。
我々の主な貢献は、正規化を加えることで、最適な政策が適切な意味で安定することを示しています。
論文 参考訳(メタデータ) (2021-09-24T07:48:34Z) - Inferential Induction: A Novel Framework for Bayesian Reinforcement
Learning [6.16852156844376]
本稿では,データから値関数分布を正確に推定する新しいフレームワークInferential Injectionについて述べる。
本研究では,提案アルゴリズムが技術状況に対して競争力があることを実験的に実証した。
論文 参考訳(メタデータ) (2020-02-08T06:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。