論文の概要: On the Complexity of Offline Reinforcement Learning with $Q^\star$-Approximation and Partial Coverage
- arxiv url: http://arxiv.org/abs/2602.12107v1
- Date: Thu, 12 Feb 2026 15:59:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.912234
- Title: On the Complexity of Offline Reinforcement Learning with $Q^\star$-Approximation and Partial Coverage
- Title(参考訳): Q^\star$- Approximationと部分被覆によるオフライン強化学習の複雑さについて
- Authors: Haolin Liu, Braham Snyder, Chen-Yu Wei,
- Abstract要約: Qstar$-approximationと部分的カバレッジの下でオフライン強化学習について検討した。
与えられた$Qstar$関数クラスの固有の複雑さを特徴付ける一般的なフレームワークを導入する。
また、ベルマン完全性のない一般低ベルマンランクMDPに対して、オフライン学習性の最初の特徴を与える。
- 参考スコア(独自算出の注目度): 26.28492097543273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study offline reinforcement learning under $Q^\star$-approximation and partial coverage, a setting that motivates practical algorithms such as Conservative $Q$-Learning (CQL; Kumar et al., 2020) but has received limited theoretical attention. Our work is inspired by the following open question: "Are $Q^\star$-realizability and Bellman completeness sufficient for sample-efficient offline RL under partial coverage?" We answer in the negative by establishing an information-theoretic lower bound. Going substantially beyond this, we introduce a general framework that characterizes the intrinsic complexity of a given $Q^\star$ function class, inspired by model-free decision-estimation coefficients (DEC) for online RL (Foster et al., 2023b; Liu et al., 2025b). This complexity recovers and improves the quantities underlying the guarantees of Chen and Jiang (2022) and Uehara et al. (2023), and extends to broader settings. Our decision-estimation decomposition can be combined with a wide range of $Q^\star$ estimation procedures, modularizing and generalizing existing approaches. Beyond the general framework, we make further contributions: By developing a novel second-order performance difference lemma, we obtain the first $ε^{-2}$ sample complexity under partial coverage for soft $Q$-learning, improving the $ε^{-4}$ bound of Uehara et al. (2023). We remove Chen and Jiang's (2022) need for additional online interaction when the value gap of $Q^\star$ is unknown. We also give the first characterization of offline learnability for general low-Bellman-rank MDPs without Bellman completeness (Jiang et al., 2017; Du et al., 2021; Jin et al., 2021), a canonical setting in online RL that remains unexplored in offline RL except for special cases. Finally, we provide the first analysis for CQL under $Q^\star$-realizability and Bellman completeness beyond the tabular case.
- Abstract(参考訳): Q^\star$-approximation and partial coverageという,保守的な$Q$-Learning (CQL, Kumar et al , 2020) などの実践的アルゴリズムを動機付ける設定の下で,オフライン強化学習について検討する。
我々の研究は、以下のオープンな質問に触発されている: "Are $Q^\star$-realizability and Bellman completeness for sample- efficient offline RL under partial coverage?
これはオンラインRL(Foster et al , 2023b; Liu et al , 2025b)のモデル自由決定推定係数(DEC)にインスパイアされたものである。
この複雑さは、Chen and Jiang (2022) と Uehara et al (2023) の保証を回復し、改善し、より広範な設定にまで拡張する。
我々の決定-推定分解は、様々な$Q^\star$推定手順と組み合わせて、既存のアプローチをモジュール化し、一般化することができる。
新たな2階性能差分補題を開発することで、ソフトな$Q$学習のための部分的カバレッジの下で、最初の$ε^{-2}$サンプルの複雑さを得、Uehara et al (2023) の$ε^{-4}$境界を改善します。
我々は、$Q^\star$の値ギャップが未知の場合、Chen と Jiang (2022) の追加のオンラインインタラクションの必要性を取り除く。
また、ベルマン完全性のない一般低ベルマン級MDP(Jiang et al , 2017; Du et al , 2021; Jin et al , 2021)のオフライン学習性について、オンラインRLの標準的設定として初めて評価した。
最後に、$Q^\star$-realizabilityの下でのCQLの最初の分析と、表ケースを超えたベルマン完全性を提供する。
関連論文リスト
- Settling the Sample Complexity of Online Reinforcement Learning [92.02082223856479]
バーンインコストを発生させることなく、最小限の最適後悔を実現する方法を示す。
最適値/コストや一定の分散といった問題依存量の影響を明らかにするために、我々の理論を拡張します。
論文 参考訳(メタデータ) (2023-07-25T15:42:11Z) - A General Framework for Sequential Decision-Making under Adaptivity
Constraints [112.79808969568253]
適応性制約(まれなポリシースイッチ)とバッチ学習(バッチ学習)という2つの制約の下で、一般的なシーケンシャルな意思決定について検討する。
稀なポリシースイッチの制約に対して、バッチ数で$widetildemathcalO(sqrtK+K/B)$ regretを達成するアルゴリズムを提供する。
バッチ学習制約に対して、バッチ数で$widetildemathcalO(sqrtK+K/B)$ regretを提供するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2023-06-26T07:20:25Z) - A Finite Sample Complexity Bound for Distributionally Robust Q-learning [17.96094201655567]
我々は,展開環境が訓練環境と異なる強化学習環境を考える。
ロバストなマルコフ決定プロセスの定式化を適用することで、Liuらで研究されている分布的にロバストな$Q$ラーニングフレームワークを拡張します。
これはモデルのないロバストなRL問題に対する最初のサンプル複雑性結果である。
論文 参考訳(メタデータ) (2023-02-26T01:15:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。