論文の概要: Probabilistic Inference in Reinforcement Learning Done Right
- arxiv url: http://arxiv.org/abs/2311.13294v1
- Date: Wed, 22 Nov 2023 10:23:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 15:15:49.447904
- Title: Probabilistic Inference in Reinforcement Learning Done Right
- Title(参考訳): 強化学習を正しく行う確率的推論
- Authors: Jean Tarbouriech, Tor Lattimore, Brendan O'Donoghue
- Abstract要約: 強化学習における一般的な見解は、マルコフ決定過程(MDP)のグラフィカルモデルに確率論的推論として問題を提起している。
この量を近似するための従来のアプローチは任意に貧弱であり、真の統計的推論を実装しないアルゴリズムに繋がる。
我々はまず、この量が、後悔によって測定されるように、効率的に探索するポリシーを生成するために実際に利用できることを明らかにした。
- 参考スコア(独自算出の注目度): 37.31057328219418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A popular perspective in Reinforcement learning (RL) casts the problem as
probabilistic inference on a graphical model of the Markov decision process
(MDP). The core object of study is the probability of each state-action pair
being visited under the optimal policy. Previous approaches to approximate this
quantity can be arbitrarily poor, leading to algorithms that do not implement
genuine statistical inference and consequently do not perform well in
challenging problems. In this work, we undertake a rigorous Bayesian treatment
of the posterior probability of state-action optimality and clarify how it
flows through the MDP. We first reveal that this quantity can indeed be used to
generate a policy that explores efficiently, as measured by regret.
Unfortunately, computing it is intractable, so we derive a new variational
Bayesian approximation yielding a tractable convex optimization problem and
establish that the resulting policy also explores efficiently. We call our
approach VAPOR and show that it has strong connections to Thompson sampling,
K-learning, and maximum entropy exploration. We conclude with some experiments
demonstrating the performance advantage of a deep RL version of VAPOR.
- Abstract(参考訳): 強化学習(RL)における一般的な見解は、マルコフ決定過程(MDP)のグラフィカルモデルに確率論的推論として問題を提起している。
研究の中心となる目的は、各状態-作用ペアが最適なポリシーの下で訪問される確率である。
この量を近似する従来のアプローチは任意に貧弱であり、真の統計的推論を実装せず、結果として難解な問題ではうまく機能しないアルゴリズムに繋がる。
本研究では, 状態-作用最適性の後続確率の厳密なベイズ処理を行い, MDPをどう流れるかを明らかにする。
私たちはまず、後悔によって測定されたように、この量を使って効率的に探索するポリシを生成できることを明らかにします。
残念ながら、計算は難解であるため、新しい変分ベイズ近似を導出し、抽出可能な凸最適化問題を導出し、その結果のポリシーも効率的に探索する。
我々は、我々のアプローチをVAPORと呼び、トンプソンサンプリング、Kラーニング、最大エントロピー探索と強く結びついていることを示す。
本稿では,VAPORの深部RLバージョンの性能特性を実証する実験を行った。
関連論文リスト
- Model-Based Epistemic Variance of Values for Risk-Aware Policy
Optimization [63.32053223422317]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
特に、MDP上の分布によって誘導される値の分散を特徴付けることに焦点をあてる。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Online POMDP Planning with Anytime Deterministic Guarantees [11.157761902108692]
不確実性の下での計画は、部分的に観測可能なマルコフ決定プロセス(POMDP)を用いて数学的に定式化できる
POMDPの最適計画を見つけるには計算コストがかかり、小さなタスクにのみ適用可能である。
簡便な解と理論的に最適な解との決定論的関係を導出する。
論文 参考訳(メタデータ) (2023-10-03T04:40:38Z) - Provably Efficient Bayesian Optimization with Unbiased Gaussian Process
Hyperparameter Estimation [52.035894372374756]
目的関数の大域的最適値にサブ線形収束できる新しいBO法を提案する。
本手法では,BOプロセスにランダムなデータポイントを追加するために,マルチアームバンディット法 (EXP3) を用いる。
提案手法は, 様々な合成および実世界の問題に対して, 既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-12T03:35:45Z) - Nearly Optimal Latent State Decoding in Block MDPs [74.51224067640717]
エピソードブロック MDP では、意思決定者は少数の潜在状態から生成される豊富な観測やコンテキストにアクセスすることができる。
まず、固定動作ポリシーに基づいて生成されたデータに基づいて、潜時状態復号関数を推定することに興味がある。
次に、報酬のないフレームワークにおいて、最適に近いポリシーを学習する問題について研究する。
論文 参考訳(メタデータ) (2022-08-17T18:49:53Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Batch Reinforcement Learning with a Nonparametric Off-Policy Policy
Gradient [34.16700176918835]
オフライン強化学習は、より良いデータ効率を約束する。
現在の非政治政策勾配法は、高いバイアスまたは高い分散に悩まされ、しばしば信頼できない見積もりを提供する。
閉形式で解ける非パラメトリックベルマン方程式を提案する。
論文 参考訳(メタデータ) (2020-10-27T13:40:06Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Beyond the Mean-Field: Structured Deep Gaussian Processes Improve the
Predictive Uncertainties [12.068153197381575]
高速収束を達成しつつ、潜在過程間の共分散を維持できる新しい変分族を提案する。
新しいアプローチの効率的な実装を提供し、それをいくつかのベンチマークデータセットに適用します。
優れた結果をもたらし、最先端の代替品よりも精度とキャリブレーションされた不確実性推定とのバランスが良くなる。
論文 参考訳(メタデータ) (2020-05-22T11:10:59Z) - Deep Reinforcement Learning with Weighted Q-Learning [43.823659028488876]
Q-learningに基づく強化学習アルゴリズムは、複雑な問題の解決に向けて、Deep Reinforcement Learning (DRL)研究を推進している。
Q-Learningは、期待値の雑音の最大過度推定を用いて学習するため、正の偏りがあることが知られている。
提案手法は, 提案手法により, バイアスw.r.t.関連ベースラインを減らし, その優位性を示す実証的な証拠を提供する。
論文 参考訳(メタデータ) (2020-03-20T13:57:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。