論文の概要: Towards Instance-Optimal Offline Reinforcement Learning with Pessimism
- arxiv url: http://arxiv.org/abs/2110.08695v1
- Date: Sun, 17 Oct 2021 01:21:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 13:27:42.574569
- Title: Towards Instance-Optimal Offline Reinforcement Learning with Pessimism
- Title(参考訳): ペシミズムを用いた最適オフライン強化学習に向けて
- Authors: Ming Yin and Yu-Xiang Wang
- Abstract要約: 我々は、未知マルコフ決定過程(MDP)における報酬最大化ポリシーの学習を目標とするオフライン強化学習(オフラインRL)問題について検討する。
本研究では、適応悲観的値反復法(APVI)アルゴリズムを分析し、[Oleft(sum_h=1Hsum_s_h,a_hdpistar_h(s_h,a_h)sqrtfracmathrmmathrmVar_]とほぼ一致する準最適上限を導出する。
- 参考スコア(独自算出の注目度): 34.54294677335518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the offline reinforcement learning (offline RL) problem, where the
goal is to learn a reward-maximizing policy in an unknown Markov Decision
Process (MDP) using the data coming from a policy $\mu$. In particular, we
consider the sample complexity problems of offline RL for finite-horizon MDPs.
Prior works study this problem based on different data-coverage assumptions,
and their learning guarantees are expressed by the covering coefficients which
lack the explicit characterization of system quantities. In this work, we
analyze the Adaptive Pessimistic Value Iteration (APVI) algorithm and derive
the suboptimality upper bound that nearly matches \[
O\left(\sum_{h=1}^H\sum_{s_h,a_h}d^{\pi^\star}_h(s_h,a_h)\sqrt{\frac{\mathrm{Var}_{P_{s_h,a_h}}{(V^\star_{h+1}+r_h)}}{d^\mu_h(s_h,a_h)}}\sqrt{\frac{1}{n}}\right).
\] In complementary, we also prove a per-instance information-theoretical lower
bound under the weak assumption that $d^\mu_h(s_h,a_h)>0$ if
$d^{\pi^\star}_h(s_h,a_h)>0$. Different from the previous minimax lower bounds,
the per-instance lower bound (via local minimaxity) is a much stronger
criterion as it applies to individual instances separately. Here $\pi^\star$ is
a optimal policy, $\mu$ is the behavior policy and $d_h^\mu$ is the marginal
state-action probability. We call the above equation the intrinsic offline
reinforcement learning bound since it directly implies all the existing optimal
results: minimax rate under uniform data-coverage assumption, horizon-free
setting, single policy concentrability, and the tight problem-dependent
results. Later, we extend the result to the assumption-free regime (where we
make no assumption on $ \mu$) and obtain the assumption-free intrinsic bound.
Due to its generic form, we believe the intrinsic bound could help illuminate
what makes a specific problem hard and reveal the fundamental challenges in
offline RL.
- Abstract(参考訳): オフライン強化学習(オフラインRL)問題について検討し,その目的は未知のマルコフ決定プロセス(MDP)における報酬最大化ポリシーをポリシー$\mu$から得られるデータを用いて学習することである。
特に、有限水平 MDP に対するオフライン RL のサンプル複雑性問題を考察する。
先行研究は、異なるデータカバレッジ仮定に基づいてこの問題を研究し、その学習保証は、システム量の明示的な特徴付けを欠いた被覆係数によって表現される。
本研究では,適応悲観的値反復法 (APVI) のアルゴリズムを解析し, ほぼ一致する準最適上限を導出する。 \[O\left(\sum_{h=1}^H\sum_{s_h,a_h}d^{\pi^\star}_h(s_h,a_h)\sqrt {\frac {\mathrm{Var}_{P_{s_h,a_h}}{(V^\star_{h+1}+r_h)}}{d^\mu_h(s_h,a_h)}}\sqrt {\frac{1}{n}}\right。
\] 相補的に、d^\mu_h(s_h,a_h)>0$ if $d^{\pi^\star}_h(s_h,a_h)>0$という弱い仮定の下で、インスタンスごとの情報-理論的下界も証明する。
以前のミニマックス下限と異なり、(局所ミニマックスによる)インスタンスごとの低限境界は個々のインスタンスに対して独立に適用されるより強い基準である。
ここで、$\pi^\star$は最適ポリシー、$\mu$は行動ポリシー、$d_h^\mu$は限界状態反応確率である。
私たちは、上記の方程式を本質的オフライン強化学習境界と呼ぶ。それは、すべての既存の最適結果を直接含んでいる:一様データ被覆仮定の下でのミニマックスレート、地平線なし設定、単一ポリシー集中可能性、および厳密な問題依存結果である。
その後、結果を仮定なしのレジーム(ここでは$ \mu$ を仮定しない)に拡張し、仮定なしの内在境界を得る。
その汎用的な形式のため、本質的な境界は特定の問題を難しくするものを照明し、オフラインRLにおける根本的な課題を明らかにするのに役立つと信じている。
関連論文リスト
- Order-Optimal Instance-Dependent Bounds for Offline Reinforcement Learning with Preference Feedback [56.6950165117658]
我々は、暗黙の報酬が未知パラメータの線形関数である、好みフィードバックによるオフライン強化学習について検討する。
そこで我々は,UnderlineLocally Underline Underline Weights あるいは sc RL-LOW を用いたアルゴリズムを提案する。
我々は,sc RL-LOWの次数次最適性を示すため,単純な後悔マッチングの指数において,下限と上限が順序的に一致することが観察された。
論文 参考訳(メタデータ) (2024-06-18T02:03:12Z) - Sharp Rates in Dependent Learning Theory: Avoiding Sample Size Deflation for the Square Loss [33.18537822803389]
L2$ と $Psi_p$ の位相が我々の仮説クラス $mathscrF$, $mathscrF$ に同値であるときにいつでも、$mathscrF$ は弱準ガウス類であることを示す。
以上の結果から, 混合への直接的な依存は高次項に還元されるため, この問題は実現可能か否かを判断できる。
論文 参考訳(メタデータ) (2024-02-08T18:57:42Z) - Estimating Optimal Policy Value in General Linear Contextual Bandits [50.008542459050155]
多くのバンドイット問題において、政策によって達成可能な最大報酬は、前もって不明であることが多い。
我々は,最適政策が学習される前に,サブ線形データ構造における最適政策値を推定する問題を考察する。
V*$で問題依存上界を推定する,より実用的で効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-19T01:09:24Z) - Near Sample-Optimal Reduction-based Policy Learning for Average Reward
MDP [58.13930707612128]
この研究は、平均報酬マルコフ決定過程(AMDP)における$varepsilon$-Optimal Policyを得る際のサンプルの複雑さを考察する。
我々は、状態-作用対当たりの$widetilde O(H varepsilon-3 ln frac1delta)$サンプルを証明し、$H := sp(h*)$は任意の最適ポリシーのバイアスのスパンであり、$varepsilon$は精度、$delta$は失敗確率である。
論文 参考訳(メタデータ) (2022-12-01T15:57:58Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - Settling the Sample Complexity of Model-Based Offline Reinforcement
Learning [50.5790774201146]
オフライン強化学習(RL)は、事前収集されたデータを用いて、さらなる探索を行わずに学習する。
事前のアルゴリズムや分析は、最適なサンプルの複雑さに悩まされるか、サンプルの最適性に到達するために高いバーンインコストがかかるかのいずれかである。
モデルベース(あるいは"プラグイン")アプローチは,バーンインコストを伴わずに,最小限のサンプル複雑性を実現することを実証する。
論文 参考訳(メタデータ) (2022-04-11T17:26:19Z) - Policy Finetuning: Bridging Sample-Efficient Offline and Online
Reinforcement Learning [59.02541753781001]
本稿では、学習者が「参照ポリシー」にさらにアクセス可能なオンラインRLの政策微調整に関する理論的研究を開始する。
我々はまず、$varepsilon$$widetildeO(H3SCstar/varepsilon2)$のエピソード内で、ほぼ最適ポリシーを求める鋭いオフライン還元アルゴリズムを設計する。
次に、Omega(H3SminCstar, A/varepsilon2)$のサンプル複雑性を、任意のポリシー微調整アルゴリズムに対して低いバウンドで設定します。
論文 参考訳(メタデータ) (2021-06-09T08:28:55Z) - Characterizing Uniform Convergence in Offline Policy Evaluation via
model-based approach: Offline Learning, Task-Agnostic and Reward-Free [34.54294677335518]
オフライン政策評価問題における一様収束の統計的限界(一様OPEの略)とモデルに基づくMDP設定手法について検討する。
本研究の主な成果は,MPPの長期的最適政策に対する$tildeO(H2/d_mepsilon2)$のエピソード複雑性を確立することである。
論文 参考訳(メタデータ) (2021-05-13T01:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。