論文の概要: Posterior Sampling for Continuing Environments
- arxiv url: http://arxiv.org/abs/2211.15931v3
- Date: Sun, 11 Aug 2024 15:46:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 01:29:38.985132
- Title: Posterior Sampling for Continuing Environments
- Title(参考訳): 連続環境のための後方サンプリング
- Authors: Wanqiao Xu, Shi Dong, Benjamin Van Roy,
- Abstract要約: 強化学習のための後部サンプリングの拡張(PSRL)を開発する。
我々は、統計的に妥当な環境モデルを維持し、予測される$gamma$-discounted returnをそのモデルで最大化するポリシーに従う。
私たちの研究は、ランダムな探索によって再サンプリングアプローチを形式化し、厳格に分析する最初のものです。
- 参考スコア(独自算出の注目度): 26.601283985437867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We develop an extension of posterior sampling for reinforcement learning (PSRL) that is suited for a continuing agent-environment interface and integrates naturally into agent designs that scale to complex environments. The approach, continuing PSRL, maintains a statistically plausible model of the environment and follows a policy that maximizes expected $\gamma$-discounted return in that model. At each time, with probability $1-\gamma$, the model is replaced by a sample from the posterior distribution over environments. For a choice of discount factor that suitably depends on the horizon $T$, we establish an $\tilde{O}(\tau S \sqrt{A T})$ bound on the Bayesian regret, where $S$ is the number of environment states, $A$ is the number of actions, and $\tau$ denotes the reward averaging time, which is a bound on the duration required to accurately estimate the average reward of any policy. Our work is the first to formalize and rigorously analyze the resampling approach with randomized exploration.
- Abstract(参考訳): 我々は, エージェント環境インタフェースに適合し, 複雑な環境にスケールするエージェント設計に自然に統合された, 強化学習のための後部サンプリング(PSRL)の拡張を開発する。
この手法はPSRLを継続し、統計的に妥当な環境モデルを維持し、予測される$\gamma$-discounted returnをそのモデルで最大化するポリシーに従う。
確率が1-\gamma$の場合、モデルは環境上の後部分布からのサンプルに置き換えられる。
地平線$T$に相応しい割引係数を選択するために、ベイズ的後悔に縛られる$\tilde{O}(\tau S \sqrt{A T})$を定め、そこで$S$は環境状態の数、$A$はアクションの数、$\tau$は報酬平均時間を表し、任意のポリシーの平均報酬を正確に見積もるのに必要な時間に縛られる。
私たちの研究は、ランダムな探索によって再サンプリングアプローチを形式化し、厳格に分析する最初のものです。
関連論文リスト
- Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。
我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。
我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-05-10T09:58:47Z) - Convergence of a model-free entropy-regularized inverse reinforcement learning algorithm [6.481009996429766]
逆強化学習(IRL)は、専門家が最適である報酬を回復することを目的としている。
本研究では,エントロピー規則化IRL問題を解くためのモデルフリーアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-25T14:54:42Z) - Provable Policy Gradient Methods for Average-Reward Markov Potential
Games [15.136494705127564]
無限水平平均報酬基準の下でマルコフポテンシャルゲームを研究する。
我々は、独立政策勾配と独立自然政策勾配に基づくアルゴリズムが、平均報酬基準に対するナッシュ均衡にグローバルに収束することを証明した。
論文 参考訳(メタデータ) (2024-03-09T00:20:33Z) - Optimal Horizon-Free Reward-Free Exploration for Linear Mixture MDPs [60.40452803295326]
線形マルコフ決定過程(MDP)を学習するための新たな報酬なしアルゴリズムを提案する。
我々のアルゴリズムの核心は、探索駆動の擬似回帰を用いた不確実性重み付き値目標回帰である。
我々のアルゴリズムは$tilde O(d2varepsilon-2)$ episodesを探索するだけで、$varepsilon$-optimal policyを見つけることができる。
論文 参考訳(メタデータ) (2023-03-17T17:53:28Z) - Optimistic Posterior Sampling for Reinforcement Learning with Few
Samples and Tight Guarantees [43.13918072870693]
強化学習(OPSRL)のための楽観的後部サンプリングアルゴリズムを提案する。
殆どの$widetildemathcalO(sqrtH3SAT)$ ignoring $textpolylog(HSAT)$ termsにおいて、高い確率で再帰的な順序境界を保証する。
我々の境界は位数$Omega(sqrtH3SAT)$の下位境界と一致し、Agrawal と Jia が提起した開問題に答える。
論文 参考訳(メタデータ) (2022-09-28T20:49:34Z) - Simultaneously Learning Stochastic and Adversarial Bandits under the
Position-Based Model [9.945948163150874]
本研究は, 位置ベースモデルに基づくオンライン学習における課題のランク付けに関する研究である。
提案アルゴリズムは,対向環境において$O(logT)$後悔を同時に達成し,対向環境において$O(msqrtnT)$後悔を同時に達成する。
実験により,本アルゴリズムは,既存手法と競合する環境下で同時に学習できることが確認された。
論文 参考訳(メタデータ) (2022-07-12T10:00:14Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Reward-Free Model-Based Reinforcement Learning with Linear Function
Approximation [92.99933928528797]
エピソードマルコフ決定過程(MDP)に対する線形関数近似を用いたモデルに基づく無報酬強化学習について検討する。
計画段階では、特定の報酬関数が与えられ、探索フェーズから収集したサンプルを使用して良い政策を学ぶ。
任意の報酬関数に対して$epsilon$-optimal Policyを得るには,最大$tilde O(H4d(H + d)epsilon-2)$ episodesをサンプリングする必要がある。
論文 参考訳(メタデータ) (2021-10-12T23:03:58Z) - A Provably Efficient Sample Collection Strategy for Reinforcement
Learning [123.69175280309226]
オンライン強化学習(RL)における課題の1つは、エージェントがその振る舞いを最適化するために、環境の探索とサンプルの活用をトレードオフする必要があることである。
1) 生成モデル(環境のスパースシミュレータなど)にアクセス可能な状態のサンプル数を規定する「対象別」アルゴリズム,2) 所定のサンプルをできるだけ早く生成する「対象別」サンプル収集。
論文 参考訳(メタデータ) (2020-07-13T15:17:35Z) - Reward-Free Exploration for Reinforcement Learning [82.3300753751066]
探索の課題を分離する「逆フリーなRL」フレームワークを提案する。
我々は,$tildemathcalO(S2Amathrmpoly(H)/epsilon2)$の探索を効率的に行うアルゴリズムを提案する。
また、ほぼ一致する$Omega(S2AH2/epsilon2)$ lower boundを与え、この設定でアルゴリズムのほぼ最適性を示す。
論文 参考訳(メタデータ) (2020-02-07T14:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。