論文の概要: Provable and Practical: Efficient Exploration in Reinforcement Learning
via Langevin Monte Carlo
- arxiv url: http://arxiv.org/abs/2305.18246v1
- Date: Mon, 29 May 2023 17:11:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 13:51:11.013401
- Title: Provable and Practical: Efficient Exploration in Reinforcement Learning
via Langevin Monte Carlo
- Title(参考訳): Provable and Practical: Langevin Monte Carloによる強化学習の効率的な探索
- Authors: Haque Ishfaq, Qingfeng Lan, Pan Xu, A. Rupam Mahmood, Doina Precup,
Anima Anandkumar, Kamyar Azizzadenesheli
- Abstract要約: 我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
- 参考スコア(独自算出の注目度): 98.11820566044216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a scalable and effective exploration strategy based on Thompson
sampling for reinforcement learning (RL). One of the key shortcomings of
existing Thompson sampling algorithms is the need to perform a Gaussian
approximation of the posterior distribution, which is not a good surrogate in
most practical settings. We instead directly sample the Q function from its
posterior distribution, by using Langevin Monte Carlo, an efficient type of
Markov Chain Monte Carlo (MCMC) method. Our method only needs to perform noisy
gradient descent updates to learn the exact posterior distribution of the Q
function, which makes our approach easy to deploy in deep RL. We provide a
rigorous theoretical analysis for the proposed method and demonstrate that, in
the linear Markov decision process (linear MDP) setting, it has a regret bound
of $\tilde{O}(d^{3/2}H^{5/2}\sqrt{T})$, where $d$ is the dimension of the
feature mapping, $H$ is the planning horizon, and $T$ is the total number of
steps. We apply this approach to deep RL, by using Adam optimizer to perform
gradient updates. Our approach achieves better or similar results compared with
state-of-the-art deep RL algorithms on several challenging exploration tasks
from the Atari57 suite.
- Abstract(参考訳): 本稿では、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
既存のトンプソンサンプリングアルゴリズムの重要な欠点の1つは、後方分布のガウス近似を実行する必要があることである。
その代わりに、markov chain monte carlo (mcmc) 法の効率的なタイプであるlangevin monte carloを用いて、後続分布からq関数を直接サンプリングする。
提案手法では,Q関数の正確な後部分布を学習するためにのみ雑音勾配降下更新を行う必要があるため,より深いRLでの展開が容易である。
提案手法の厳密な理論的解析を行い、線形マルコフ決定過程(線形MDP)において、$\tilde{O}(d^{3/2}H^{5/2}\sqrt{T})$の後悔境界を持ち、$d$は特徴写像の次元であり、$H$は計画的地平線であり、$T$はステップの総数であることを示す。
我々は、Adam Optimizationrを用いて勾配更新を行うことにより、このアプローチをディープRLに適用する。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
関連論文リスト
- Model-Based Reinforcement Learning with Multinomial Logistic Function Approximation [10.159501412046508]
マルコフ決定過程(MDP)におけるモデルベース強化学習(RL)について検討する。
我々は,多項ロジスティックモデルにより状態遷移が与えられるMPPに対して,証明可能な効率のよいRLアルゴリズムを確立する。
我々の知る限りでは、証明可能な保証付き多項ロジスティック関数近似を用いたモデルベースRLアルゴリズムとしてはこれが初めてである。
論文 参考訳(メタデータ) (2022-12-27T16:25:09Z) - Langevin Monte Carlo for Contextual Bandits [72.00524614312002]
Langevin Monte Carlo Thompson Sampling (LMC-TS) が提案されている。
提案アルゴリズムは,文脈的帯域幅の特別な場合において,最高のトンプソンサンプリングアルゴリズムと同じサブ線形残差を達成できることを示す。
論文 参考訳(メタデータ) (2022-06-22T17:58:23Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - Reward-Free RL is No Harder Than Reward-Aware RL in Linear Markov
Decision Processes [61.11090361892306]
Reward-free reinforcement learning (RL) は、エージェントが探索中に報酬関数にアクセスできないような環境を考える。
この分離は線形MDPの設定には存在しないことを示す。
我々は$d$次元線形 MDP における報酬のない RL に対する計算効率の良いアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-01-26T22:09:59Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - Model-based Reinforcement Learning for Continuous Control with Posterior
Sampling [10.91557009257615]
連続状態空間における強化学習(PSRL)のためのモデルベース後方サンプリングについて検討した。
MPC-PSRLはモデルに基づく後部サンプリングアルゴリズムであり,行動選択のためのモデル予測制御を行う。
論文 参考訳(メタデータ) (2020-11-20T21:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。