論文の概要: Provably Efficient Neural Offline Reinforcement Learning via Perturbed
Rewards
- arxiv url: http://arxiv.org/abs/2302.12780v1
- Date: Fri, 24 Feb 2023 17:52:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-27 12:42:47.522454
- Title: Provably Efficient Neural Offline Reinforcement Learning via Perturbed
Rewards
- Title(参考訳): 摂動報酬による効率的な神経オフライン強化学習
- Authors: Thanh Nguyen-Tang, Raman Arora
- Abstract要約: VIPeRは、ランダム化された値関数のアイデアと悲観主義の原理を一致させる。
オフラインデータを複数回摂動することで、暗黙的に悲観性を得る。
ニューラルネットワーク関数近似を用いた一般的なマルコフ決定過程(MDP)において、証明可能かつ計算的に効率的である。
- 参考スコア(独自算出の注目度): 33.88533898709351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel offline reinforcement learning (RL) algorithm, namely
Value Iteration with Perturbed Rewards (VIPeR) which amalgamates the randomized
value function idea with the pessimism principle. Most current offline RL
algorithms explicitly construct statistical confidence regions to obtain
pessimism via lower confidence bounds (LCB), which cannot easily scale to
complex problems where a neural network is used to estimate the value
functions. Instead, VIPeR implicitly obtains pessimism by simply perturbing the
offline data multiple times with carefully-designed i.i.d Gaussian noises to
learn an ensemble of estimated state-action values and acting greedily to the
minimum of the ensemble. The estimated state-action values are obtained by
fitting a parametric model (e.g. neural networks) to the perturbed datasets
using gradient descent. As a result, VIPeR only needs $\mathcal{O}(1)$ time
complexity for action selection while LCB-based algorithms require at least
$\Omega(K^2)$, where $K$ is the total number of trajectories in the offline
data. We also propose a novel data splitting technique that helps remove the
potentially large log covering number in the learning bound. We prove that
VIPeR yields a provable uncertainty quantifier with overparameterized neural
networks and achieves an $\tilde{\mathcal{O}}\left( \frac{ \kappa H^{5/2}
\tilde{d} }{\sqrt{K}} \right)$ sub-optimality where $\tilde{d}$ is the
effective dimension, $H$ is the horizon length and $\kappa$ measures the
distributional shift. We corroborate the statistical and computational
efficiency of VIPeR with an empirical evaluation in a wide set of synthetic and
real-world datasets. To the best of our knowledge, VIPeR is the first offline
RL algorithm that is both provably and computationally efficient in general
Markov decision processes (MDPs) with neural network function approximation.
- Abstract(参考訳): 本研究では,ランダム化値関数のアイデアとペシミズム原理を融合した,新しいオフライン強化学習(rl)アルゴリズム,すなわち摂動報酬付き値反復(viper)を提案する。
現在のオフラインRLアルゴリズムは、低信頼境界(LCB)を介して悲観性を得るために、統計的信頼領域を明示的に構成するが、ニューラルネットワークが値関数を推定するために使用される複雑な問題に容易にスケールできない。
代わりに、VIPeRは暗黙的に暗黙的に、慎重に設計されたガウスノイズでオフラインデータを何度も摂動させ、推定された状態-作用値のアンサンブルを学習し、アンサンブルの最小値に優しく振る舞うことで悲観的を得る。
推定状態-作用値は、勾配降下を用いた摂動データセットにパラメトリックモデル(例えばニューラルネットワーク)を適用することで得られる。
結果として、VIPeRはアクション選択に$\mathcal{O}(1)$の時間複雑さしか必要とせず、LCBベースのアルゴリズムは少なくとも$\Omega(K^2)$を必要としている。
また,学習境界における潜在的に大きなログ被覆数を取り除くための新しいデータ分割手法を提案する。
我々は、VIPeRが超パラメータ化されたニューラルネットワークで証明可能な不確実性定量化器を生成し、$\tilde{\mathcal{O}}\left( \frac{ \kappa H^{5/2} \tilde{d} }{\sqrt{K}} \right)$ sub-optimality where $\tilde{d}$ is the effective dimension, $H$ is the horizon length and $\kappa$ measures the distributional shift。
我々は,viperの統計および計算効率を,多種多様な合成および実世界のデータセットにおける経験的評価と照合する。
我々の知る限り、VIPeRは、ニューラルネットワーク関数近似による一般的なマルコフ決定過程(MDP)において、証明可能かつ計算的に効率的である最初のオフラインRLアルゴリズムである。
関連論文リスト
- Sharper Guarantees for Learning Neural Network Classifiers with Gradient Methods [43.32546195968771]
本研究では,スムーズなアクティベーションを有するニューラルネットワークに対する勾配法におけるデータ依存収束と一般化挙動について検討する。
我々の結果は、よく確立されたRadecher複雑性に基づく境界の欠点を改善した。
XOR分布の分類において、NTK体制の結果に対して大きなステップサイズが大幅に改善されることが示されている。
論文 参考訳(メタデータ) (2024-10-13T21:49:29Z) - Provably Efficient CVaR RL in Low-rank MDPs [58.58570425202862]
リスクに敏感な強化学習(RL)について検討する。
本稿では, CVaR RLにおける探索, 搾取, 表現学習の相互作用のバランスをとるための, 新たなアッパー信頼境界(UCB)ボーナス駆動アルゴリズムを提案する。
提案アルゴリズムは,各エピソードの長さが$H$,アクション空間が$A$,表現の次元が$d$であるような,エプシロン$最適CVaRのサンプル複雑性を実現する。
論文 参考訳(メタデータ) (2023-11-20T17:44:40Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Markov Decision
Processes [80.89852729380425]
そこで本研究では,最小限の最小残差である$tilde O(dsqrtH3K)$を計算効率よく実現したアルゴリズムを提案する。
我々の研究は線形 MDP を用いた最適 RL に対する完全な答えを提供する。
論文 参考訳(メタデータ) (2022-12-12T18:58:59Z) - Training Overparametrized Neural Networks in Sublinear Time [14.918404733024332]
ディープラーニングには膨大な計算とエネルギーのコストが伴う。
探索木の小さな部分集合として、二分ニューラルネットワークの新しいサブセットを示し、それぞれが探索木のサブセット(Ds)に対応する。
我々はこの見解が深層ネットワーク(Ds)の分析解析にさらに応用できると考えている。
論文 参考訳(メタデータ) (2022-08-09T02:29:42Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Randomized Exploration for Reinforcement Learning with General Value
Function Approximation [122.70803181751135]
本稿では,ランダム化最小二乗値反復(RLSVI)アルゴリズムに着想を得たモデルレス強化学習アルゴリズムを提案する。
提案アルゴリズムは,スカラーノイズを用いたトレーニングデータを簡易に摂動させることにより,探索を促進する。
我々はこの理論を、既知の困難な探査課題にまたがる実証的な評価で補完する。
論文 参考訳(メタデータ) (2021-06-15T02:23:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。