論文の概要: Model-based Reinforcement Learning for Continuous Control with Posterior
Sampling
- arxiv url: http://arxiv.org/abs/2012.09613v2
- Date: Tue, 16 Nov 2021 20:29:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 06:16:43.473161
- Title: Model-based Reinforcement Learning for Continuous Control with Posterior
Sampling
- Title(参考訳): 後方サンプリングによる連続制御のためのモデルベース強化学習
- Authors: Ying Fan, Yifei Ming
- Abstract要約: 連続状態空間における強化学習(PSRL)のためのモデルベース後方サンプリングについて検討した。
MPC-PSRLはモデルに基づく後部サンプリングアルゴリズムであり,行動選択のためのモデル予測制御を行う。
- 参考スコア(独自算出の注目度): 10.91557009257615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Balancing exploration and exploitation is crucial in reinforcement learning
(RL). In this paper, we study model-based posterior sampling for reinforcement
learning (PSRL) in continuous state-action spaces theoretically and
empirically. First, we show the first regret bound of PSRL in continuous spaces
which is polynomial in the episode length to the best of our knowledge. With
the assumption that reward and transition functions can be modeled by Bayesian
linear regression, we develop a regret bound of $\tilde{O}(H^{3/2}d\sqrt{T})$,
where $H$ is the episode length, $d$ is the dimension of the state-action
space, and $T$ indicates the total time steps. This result matches the
best-known regret bound of non-PSRL methods in linear MDPs. Our bound can be
extended to nonlinear cases as well with feature embedding: using linear
kernels on the feature representation $\phi$, the regret bound becomes
$\tilde{O}(H^{3/2}d_{\phi}\sqrt{T})$, where $d_\phi$ is the dimension of the
representation space. Moreover, we present MPC-PSRL, a model-based posterior
sampling algorithm with model predictive control for action selection. To
capture the uncertainty in models, we use Bayesian linear regression on the
penultimate layer (the feature representation layer $\phi$) of neural networks.
Empirical results show that our algorithm achieves the state-of-the-art sample
efficiency in benchmark continuous control tasks compared to prior model-based
algorithms, and matches the asymptotic performance of model-free algorithms.
- Abstract(参考訳): 強化学習(RL)では、探索と搾取のバランスが不可欠である。
本稿では,連続状態空間における強化学習のためのモデルベース後方サンプリング(psrl)を理論的および経験的に検討する。
まず、エピソード長の多項式である連続空間におけるPSRLの最初の後悔境界を、私たちの知識のベストに示す。
報酬関数と遷移関数がベイズ線形回帰によってモデル化できるという仮定で、$H$ はエピソード長、$d$ は状態-作用空間の次元、$T$ は総時間ステップを表す$\tilde{O}(H^{3/2}d\sqrt{T})$ という残差境界を開発する。
この結果は、線形MDPにおける非PSRL法の最もよく知られた後悔境界と一致する。
特徴表現 $\phi$ 上で線形核を用いることで、後悔境界は$\tilde{o}(h^{3/2}d_{\phi}\sqrt{t})$となり、ここで $d_\phi$ は表現空間の次元である。
さらに,行動選択のためのモデル予測制御を備えたモデルベース後部サンプリングアルゴリズムであるMPC-PSRLを提案する。
モデルにおける不確実性を捉えるために、ニューラルネットワークの固有層(特徴表現層$\phi$)にベイズ線形回帰を用いる。
実験の結果,提案アルゴリズムは,従来のモデルベースアルゴリズムと比較して,ベンチマーク連続制御タスクにおける最先端のサンプル効率を実現し,モデルフリーアルゴリズムの漸近性能と一致した。
関連論文リスト
- Reinforcement Learning from Human Feedback without Reward Inference: Model-Free Algorithm and Instance-Dependent Analysis [16.288866201806382]
モデルフリーなRLHFベストポリシー識別アルゴリズムである$mathsfBSAD$を、明示的な報酬モデル推論なしで開発する。
アルゴリズムは、人選好情報から直接、その最適方針を後方方向に識別する。
論文 参考訳(メタデータ) (2024-06-11T17:01:41Z) - Prior-dependent analysis of posterior sampling reinforcement learning with function approximation [19.505117288012148]
この研究は、線形混合MDPをモデルとした関数近似を用いた強化学習(RL)におけるランダム化探索を推し進める。
機能近似を用いたRLに対する最初の事前依存型ベイズ後悔法を確立し, 後方サンプリング強化学習(PSRL)のためのベイズ後悔解析を洗練させる。
上限は$mathcalO(dsqrtH3 T log T)$で、$d$は遷移カーネルの次元を表し、$H$は計画地平線、$T$は相互作用の総数を表す。
論文 参考訳(メタデータ) (2024-03-17T11:23:51Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - Model-Based Reinforcement Learning with Multinomial Logistic Function Approximation [10.159501412046508]
マルコフ決定過程(MDP)におけるモデルベース強化学習(RL)について検討する。
我々は,多項ロジスティックモデルにより状態遷移が与えられるMPPに対して,証明可能な効率のよいRLアルゴリズムを確立する。
我々の知る限りでは、証明可能な保証付き多項ロジスティック関数近似を用いたモデルベースRLアルゴリズムとしてはこれが初めてである。
論文 参考訳(メタデータ) (2022-12-27T16:25:09Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Markov Decision
Processes [80.89852729380425]
そこで本研究では,最小限の最小残差である$tilde O(dsqrtH3K)$を計算効率よく実現したアルゴリズムを提案する。
我々の研究は線形 MDP を用いた最適 RL に対する完全な答えを提供する。
論文 参考訳(メタデータ) (2022-12-12T18:58:59Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - Reward-Free RL is No Harder Than Reward-Aware RL in Linear Markov
Decision Processes [61.11090361892306]
Reward-free reinforcement learning (RL) は、エージェントが探索中に報酬関数にアクセスできないような環境を考える。
この分離は線形MDPの設定には存在しないことを示す。
我々は$d$次元線形 MDP における報酬のない RL に対する計算効率の良いアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-01-26T22:09:59Z) - Exponential Family Model-Based Reinforcement Learning via Score Matching [97.31477125728844]
有限水平表層強化学習(RL)のための楽観的モデルベースアルゴリズムSMRLを提案する。
SMRLは、リッジ回帰によるモデルパラメータの効率的な推定を可能にする非正規化密度推定手法であるスコアマッチングを用いる。
論文 参考訳(メタデータ) (2021-12-28T15:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。