論文の概要: On Instance-Dependent Bounds for Offline Reinforcement Learning with
Linear Function Approximation
- arxiv url: http://arxiv.org/abs/2211.13208v1
- Date: Wed, 23 Nov 2022 18:50:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 15:51:36.153248
- Title: On Instance-Dependent Bounds for Offline Reinforcement Learning with
Linear Function Approximation
- Title(参考訳): 線形関数近似を用いたオフライン強化学習のためのインスタンス依存境界について
- Authors: Thanh Nguyen-Tang, Ming Yin, Sunil Gupta, Svetha Venkatesh, Raman
Arora
- Abstract要約: 本稿では,Bootstrapped and Constrained Pessimistic Value Iteration (BCP-VI) というアルゴリズムを提案する。
部分的なデータカバレッジの仮定の下で、BCP-VI は最適な Q-値関数に正のギャップがあるときに、オフライン RL に対して $tildemathcalO(frac1K)$ の高速レートを得る。
これらは、アダプティブデータからの線形関数近似を持つオフラインRLに対してそれぞれ、最初の$tildemathcalO(frac1K)$boundと絶対零部分最適境界である。
- 参考スコア(独自算出の注目度): 80.86358123230757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sample-efficient offline reinforcement learning (RL) with linear function
approximation has recently been studied extensively. Much of prior work has
yielded the minimax-optimal bound of $\tilde{\mathcal{O}}(\frac{1}{\sqrt{K}})$,
with $K$ being the number of episodes in the offline data. In this work, we
seek to understand instance-dependent bounds for offline RL with function
approximation. We present an algorithm called Bootstrapped and Constrained
Pessimistic Value Iteration (BCP-VI), which leverages data bootstrapping and
constrained optimization on top of pessimism. We show that under a partial data
coverage assumption, that of \emph{concentrability} with respect to an optimal
policy, the proposed algorithm yields a fast rate of
$\tilde{\mathcal{O}}(\frac{1}{K})$ for offline RL when there is a positive gap
in the optimal Q-value functions, even when the offline data were adaptively
collected. Moreover, when the linear features of the optimal actions in the
states reachable by an optimal policy span those reachable by the behavior
policy and the optimal actions are unique, offline RL achieves absolute zero
sub-optimality error when $K$ exceeds a (finite) instance-dependent threshold.
To the best of our knowledge, these are the first
$\tilde{\mathcal{O}}(\frac{1}{K})$ bound and absolute zero sub-optimality bound
respectively for offline RL with linear function approximation from adaptive
data with partial coverage. We also provide instance-agnostic and
instance-dependent information-theoretical lower bounds to complement our upper
bounds.
- Abstract(参考訳): 線形関数近似を用いたサンプル効率オフライン強化学習(RL)が最近広く研究されている。
以前の作業の多くでは、$\tilde{\mathcal{O}}(\frac{1}{\sqrt{K}})$のminimax-Optimal境界が得られており、オフラインデータでは$K$がエピソード数である。
本研究では,関数近似を用いたオフラインRLのインスタンス依存境界を理解する。
本稿では,データのブートストラップと制約付き最適化を利用したbcp-vi(bootstrapped and restricteded pessimistic value iteration)というアルゴリズムを提案する。
提案手法は,部分的データカバレッジ仮定の下では,最適方針に関して \emph{concentrability} を仮定すると,オフラインデータが適応的に収集された場合でも,最適なq値関数に正のギャップがある場合に,オフラインrlに対して$\tilde{\mathcal{o}}(\frac{1}{k})$ の高速率が得られることを示す。
さらに、最適ポリシーによって到達可能な状態の最適動作の線形的特徴が行動ポリシーによって到達可能な状態にまたがり、最適動作が一意である場合、オフラインRLは、(有限)インスタンス依存しきい値を超える場合、絶対ゼロの最適誤差を達成する。
我々の知る限りでは、これらは最初の$\tilde{\mathcal{o}}(\frac{1}{k})$boundと絶対零のサブオプティリティをそれぞれオフラインrlにバインドし、部分カバレッジを持つ適応データから線形関数近似する。
また、上界を補完するために、インスタンスに依存しない情報理論的下界も提供する。
関連論文リスト
- Order-Optimal Instance-Dependent Bounds for Offline Reinforcement Learning with Preference Feedback [56.6950165117658]
我々は、暗黙の報酬が未知パラメータの線形関数である、好みフィードバックによるオフライン強化学習について検討する。
そこで我々は,UnderlineLocally Underline Underline Weights あるいは sc RL-LOW を用いたアルゴリズムを提案する。
我々は,sc RL-LOWの次数次最適性を示すため,単純な後悔マッチングの指数において,下限と上限が順序的に一致することが観察された。
論文 参考訳(メタデータ) (2024-06-18T02:03:12Z) - Pessimistic Nonlinear Least-Squares Value Iteration for Offline Reinforcement Learning [53.97335841137496]
非線形関数近似を用いたオフラインRLにおけるPNLSVI(Pessimistic Least-Square Value Iteration)と呼ばれるオラクル効率のアルゴリズムを提案する。
本アルゴリズムは,関数クラスの複雑性に強く依存する後悔境界を享受し,線形関数近似に特化して最小限のインスタンス依存後悔を実現する。
論文 参考訳(メタデータ) (2023-10-02T17:42:01Z) - Offline Primal-Dual Reinforcement Learning for Linear MDPs [16.782625445546273]
オフライン強化学習(RL)は、他のポリシによって収集されたトランジションの固定データセットから、ほぼ最適なポリシを学ぶことを目的としている。
本稿では,RLの線形プログラミング定式化に基づく原始双対最適化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T11:45:23Z) - Revisiting the Linear-Programming Framework for Offline RL with General
Function Approximation [24.577243536475233]
オフライン強化学習(RL)は、事前に収集されたデータセットからシーケンシャルな意思決定のための最適なポリシーを追求する。
近年の理論的進歩は、データカバレッジと関数近似器に関する様々な緩和された仮定を持つサンプル効率の良いオフラインRLアルゴリズムの開発に焦点が当てられている。
オフラインRLのための線形プログラミングフレームワークを再検討し、いくつかの面で既存の結果を前進させます。
論文 参考訳(メタデータ) (2022-12-28T15:28:12Z) - Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes [99.26864533035454]
半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。
本稿では,UnderlineProxy変数 underlinePessimistic UnderlinePolicy UnderlineOptimization (textttP3O)アルゴリズムを提案する。
textttP3Oは、確立されたデータセットを持つPOMDPのための証明可能な最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-05-26T19:13:55Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - Near-Optimal Offline Reinforcement Learning via Double Variance
Reduction [36.027428493021716]
Off-Policy Double Variance Reductionは、オフラインRLのための分散化に基づく新しいアルゴリズムである。
OPDVRは$widetildeO(H2/d_mepsilon2)$ episodes of offline dataで$epsilon$-optimal Policyを確実に特定している。
また、OPDVRは、代替設定下でのレート最適化サンプルの複雑さも達成できることを示す。
論文 参考訳(メタデータ) (2021-02-02T20:47:35Z) - Is Pessimism Provably Efficient for Offline RL? [104.00628430454479]
優先度を収集したデータセットに基づいて最適なポリシーを学ぶことを目的としたオフライン強化学習(RL)について検討する。
ペナルティ関数として不確かさ量化器を組み込んだ値反復アルゴリズム(pevi)の悲観的変種を提案する。
論文 参考訳(メタデータ) (2020-12-30T09:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。