論文の概要: On Gap-dependent Bounds for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2206.00177v1
- Date: Wed, 1 Jun 2022 01:44:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-02 15:46:47.828208
- Title: On Gap-dependent Bounds for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習におけるギャップ依存境界について
- Authors: Xinqi Wang, Qiwen Cui and Simon S. Du
- Abstract要約: 本稿では,オフライン強化学習におけるギャップ依存型サンプル複雑性の系統的研究を行う。
最適政策カバレッジの仮定の下では、最適な$Q$-函数に正の準最適差がある場合、その値は$Oleft(frac1epsilonright)$に改善することができる。
最適政策の訪問確率が正である状態に対して,行動政策の訪問確率が一様に低い場合,最適政策を特定する際のサンプルの複雑さは$frac1epsilon$とは無関係である。
- 参考スコア(独自算出の注目度): 40.92345387517103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a systematic study on gap-dependent sample complexity in
offline reinforcement learning. Prior work showed when the density ratio
between an optimal policy and the behavior policy is upper bounded (the optimal
policy coverage assumption), then the agent can achieve an
$O\left(\frac{1}{\epsilon^2}\right)$ rate, which is also minimax optimal. We
show under the optimal policy coverage assumption, the rate can be improved to
$O\left(\frac{1}{\epsilon}\right)$ when there is a positive sub-optimality gap
in the optimal $Q$-function. Furthermore, we show when the visitation
probabilities of the behavior policy are uniformly lower bounded for states
where an optimal policy's visitation probabilities are positive (the uniform
optimal policy coverage assumption), the sample complexity of identifying an
optimal policy is independent of $\frac{1}{\epsilon}$. Lastly, we present
nearly-matching lower bounds to complement our gap-dependent upper bounds.
- Abstract(参考訳): 本稿では,オフライン強化学習におけるギャップ依存型サンプル複雑性の系統的研究を行う。
事前の作業では、最適なポリシーと行動ポリシーの間の密度比が(最適なポリシーカバレッジの仮定で)上限である場合、エージェントは$o\left(\frac{1}{\epsilon^2}\right)$レートを達成でき、これもminimax optimalである。
最適なポリシーカバレッジの仮定の下では、最適な$q$-関数に正のサブ最適ギャップがある場合、レートを$o\left(\frac{1}{\epsilon}\right)$に改善できる。
さらに, 最適政策の訪問確率が正である状態(一様最適政策カバレッジ仮定)に対して, 行動政策の訪問確率が一様低い場合, 最適な政策を特定するためのサンプル複雑性は$\frac{1}{\epsilon}$ に依存しないことを示した。
最後に、ギャップ依存上界を補うために、ほぼ一致する下界を示す。
関連論文リスト
- Theoretical guarantees on the best-of-n alignment policy [110.21094183592358]
基本方針と最良$n$ポリシーのKL分散は、$log (n) - (n-1)/n.$と等しいことを示す。
KLの発散に対する新しい推定器を提案し、いくつかの例を通して厳密な近似を与えることを実証的に示す。
論文 参考訳(メタデータ) (2024-01-03T18:39:13Z) - Importance-Weighted Offline Learning Done Right [16.4989952150404]
文脈的帯域幅問題におけるオフラインポリシー最適化の問題について検討する。
目標は、準最適行動ポリシーによって収集された決定データのデータセットに基づいて、ほぼ最適ポリシーを学ぶことである。
我々は、citet2015の「単純探索」推定に基づく単純な代替手法が、過去の全ての結果よりもほぼ全ての可能な条件で優れた性能保証を与えることを示した。
論文 参考訳(メタデータ) (2023-09-27T16:42:10Z) - Trust-Region-Free Policy Optimization for Stochastic Policies [60.52463923712565]
本研究では,政策に対する信頼領域の制約が,基礎となるモノトニック改善の保証を損なうことなく,信頼領域のない制約によって安全に置き換えられることを示す。
我々は,TREFree(Trust-Region-Free Policy Optimization)と呼ばれるアルゴリズムを,信頼領域の制約が不要であるとして明示する。
論文 参考訳(メタデータ) (2023-02-15T23:10:06Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z) - On the Convergence and Sample Efficiency of Variance-Reduced Policy
Gradient Method [38.34416337932712]
政策は、例えばREINFORCEのようなリッチな強化学習(RL)手法を生み出します。
しかし、そのようなメソッドが$epsilon$-optimal Policyを見つけるための最もよく知られたサンプルの複雑さは$mathcalO(epsilon-3)$である。
第一次政策最適化法の基本収束特性とサンプル効率について検討する。
論文 参考訳(メタデータ) (2021-02-17T07:06:19Z) - Near-Optimal Provable Uniform Convergence in Offline Policy Evaluation
for Reinforcement Learning [43.61029925616256]
強化学習(RL)におけるオフラインポリシー評価は、実生活アプリケーションにRLを適用するための重要なステップである。
ポリシクラス$Pi$ -- OPEの統一収束を同時に評価することで、この問題に対処する。
以上の結果から,モデルベースプランニングにより,$widetildeO(H3/d_mepsilon2)$の最適なエピソード複雑性を達成できることが示唆された。
論文 参考訳(メタデータ) (2020-07-07T19:44:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。