論文の概要: A Provably Efficient Sample Collection Strategy for Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2007.06437v2
- Date: Thu, 18 Nov 2021 15:36:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 22:55:23.984204
- Title: A Provably Efficient Sample Collection Strategy for Reinforcement
Learning
- Title(参考訳): 強化学習のための効果的なサンプル収集戦略
- Authors: Jean Tarbouriech, Matteo Pirotta, Michal Valko, Alessandro Lazaric
- Abstract要約: オンライン強化学習(RL)における課題の1つは、エージェントがその振る舞いを最適化するために、環境の探索とサンプルの活用をトレードオフする必要があることである。
1) 生成モデル(環境のスパースシミュレータなど)にアクセス可能な状態のサンプル数を規定する「対象別」アルゴリズム,2) 所定のサンプルをできるだけ早く生成する「対象別」サンプル収集。
- 参考スコア(独自算出の注目度): 123.69175280309226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the challenges in online reinforcement learning (RL) is that the agent
needs to trade off the exploration of the environment and the exploitation of
the samples to optimize its behavior. Whether we optimize for regret, sample
complexity, state-space coverage or model estimation, we need to strike a
different exploration-exploitation trade-off. In this paper, we propose to
tackle the exploration-exploitation problem following a decoupled approach
composed of: 1) An "objective-specific" algorithm that (adaptively) prescribes
how many samples to collect at which states, as if it has access to a
generative model (i.e., a simulator of the environment); 2) An
"objective-agnostic" sample collection exploration strategy responsible for
generating the prescribed samples as fast as possible. Building on recent
methods for exploration in the stochastic shortest path problem, we first
provide an algorithm that, given as input the number of samples $b(s,a)$ needed
in each state-action pair, requires $\tilde{O}(B D + D^{3/2} S^2 A)$ time steps
to collect the $B=\sum_{s,a} b(s,a)$ desired samples, in any unknown
communicating MDP with $S$ states, $A$ actions and diameter $D$. Then we show
how this general-purpose exploration algorithm can be paired with
"objective-specific" strategies that prescribe the sample requirements to
tackle a variety of settings -- e.g., model estimation, sparse reward
discovery, goal-free cost-free exploration in communicating MDPs -- for which
we obtain improved or novel sample complexity guarantees.
- Abstract(参考訳): オンライン強化学習(rl)における課題の1つは、エージェントがその動作を最適化するために環境の探索とサンプルの活用をトレードオフする必要があることである。
後悔、サンプルの複雑さ、状態空間のカバレッジ、あるいはモデル推定を最適化するために、異なる探索と探索のトレードオフを打つ必要があります。
本稿では, 切り離されたアプローチの後に, 探索・探索問題に取り組むことを提案する。
1) 生成モデル(例えば、環境のシミュレータ)へのアクセスがあるかのように、どの状態で収集するサンプル数を(適応的に)規定する「目的固有の」アルゴリズム。
2) 所定のサンプルをできるだけ早く生成する「目的に依存しない」サンプルコレクション探索戦略。
確率的最短経路問題における最近の探索法に基づいて、まず、各状態-作用ペアに必要となるサンプル数$b(s,a)$を入力すると、$\tilde{O}(B D + D^{3/2} S^2A)$時間ステップで$B=\sum_{s,a} b(s,a)$所望のサンプルを収集できる。
次に、この汎用探索アルゴリズムと、様々な設定(例えば、モデル推定、スパース報酬発見、mdp通信における目標フリーなコストフリー探索)に取り組むためのサンプル要求を規定する「目的固有の」戦略を組み合わせることにより、改善または新規なサンプル複雑性保証を得る方法を示す。
関連論文リスト
- Improved Active Learning via Dependent Leverage Score Sampling [8.400581768343804]
本研究では,非依存的(逆方向雑音)環境下での能動学習手法の改善方法について述べる。
エンフェボタルサンプリングアルゴリズムに基づく簡単な実装法を提案する。
独立サンプリングと比較して,本手法は,所定の目標精度に到達するために必要なサンプル数を最大50%削減する。
論文 参考訳(メタデータ) (2023-10-08T01:51:30Z) - Improved Active Multi-Task Representation Learning via Lasso [44.607652031235716]
本稿では,L1-regularized-relevance-based(nu1$)戦略の優位性を示す。
また、サンプルコストに敏感な設定で$nu1$ベースの戦略の可能性を特徴付けます。
論文 参考訳(メタデータ) (2023-06-05T03:08:29Z) - Optimal Horizon-Free Reward-Free Exploration for Linear Mixture MDPs [60.40452803295326]
線形マルコフ決定過程(MDP)を学習するための新たな報酬なしアルゴリズムを提案する。
我々のアルゴリズムの核心は、探索駆動の擬似回帰を用いた不確実性重み付き値目標回帰である。
我々のアルゴリズムは$tilde O(d2varepsilon-2)$ episodesを探索するだけで、$varepsilon$-optimal policyを見つけることができる。
論文 参考訳(メタデータ) (2023-03-17T17:53:28Z) - On-Demand Sampling: Learning Optimally from Multiple Distributions [63.20009081099896]
社会と現実世界の考察は、マルチディストリビューション学習パラダイムの台頭につながっている。
これらの学習パラダイムの最適なサンプル複雑性を確立し、このサンプル複雑性を満たすアルゴリズムを提供する。
アルゴリズムの設計と解析は,ゼロサムゲーム解決のためのオンライン学習手法の拡張によって実現されている。
論文 参考訳(メタデータ) (2022-10-22T19:07:26Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。