論文の概要: Trajectory Data Suffices for Statistically Efficient Policy Evaluation in Finite-Horizon Offline RL with Linear $q^π$-Realizability and Concentrability
- arxiv url: http://arxiv.org/abs/2510.03494v1
- Date: Fri, 03 Oct 2025 20:18:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.07378
- Title: Trajectory Data Suffices for Statistically Efficient Policy Evaluation in Finite-Horizon Offline RL with Linear $q^π$-Realizability and Concentrability
- Title(参考訳): 線形$q^π$-Realizability and Concentrabilityを持つ有限水平オフラインRLにおける統計的に効率的な政策評価のための軌道データ
- Authors: Volodymyr Tkachuk, Csaba Szepesvári, Xiaoqi Tan,
- Abstract要約: 政策評価と政策最適化の両方に関数近似を用いた有限水平オフライン強化学習(RL)について検討する。
Tkachuk et al. (2024) が政策最適化に用いた学習者のサンプルの複雑さは、より厳密な分析によって改善できることを示す。
- 参考スコア(独自算出の注目度): 29.537131908301046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study finite-horizon offline reinforcement learning (RL) with function approximation for both policy evaluation and policy optimization. Prior work established that statistically efficient learning is impossible for either of these problems when the only assumptions are that the data has good coverage (concentrability) and the state-action value function of every policy is linearly realizable ($q^\pi$-realizability) (Foster et al., 2021). Recently, Tkachuk et al. (2024) gave a statistically efficient learner for policy optimization, if in addition the data is assumed to be given as trajectories. In this work we present a statistically efficient learner for policy evaluation under the same assumptions. Further, we show that the sample complexity of the learner used by Tkachuk et al. (2024) for policy optimization can be improved by a tighter analysis.
- Abstract(参考訳): 政策評価と政策最適化の両方に関数近似を用いた有限水平オフライン強化学習(RL)について検討する。
統計学的に効率的な学習は、データが良好なカバレッジ(集中性)を持ち、全てのポリシーの状態-作用値関数が線形に実現可能であるという仮定が唯一の仮定である場合、これらの問題のいずれかにおいて、統計的に効率的な学習は不可能である(Foster et al , 2021)。
近年、Tkachuk et al (2024) は、もしそのデータが軌跡として与えられると仮定すれば、政策最適化のための統計的に効率的な学習者を与えている。
本研究では,同じ仮定の下で,政策評価のための統計的に効率的な学習者を提案する。
さらに,Tkachuk et al (2024) が政策最適化に用いた学習者のサンプルの複雑さを,より厳密な分析によって改善できることを示す。
関連論文リスト
- Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Importance Weighted Actor-Critic for Optimal Conservative Offline
Reinforcement Learning [23.222448307481073]
データカバレッジが不十分な複雑な環境でのオフライン強化学習(RL)のための新しい実践的アルゴリズムを提案する。
本アルゴリズムは,重要度抽出フレームワークとアクター批判パラダイムを併用する。
提案アルゴリズムの有効性を検証するため,理論的解析と実験結果の両方を提供する。
論文 参考訳(メタデータ) (2023-01-30T07:53:53Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Is Pessimism Provably Efficient for Offline RL? [104.00628430454479]
優先度を収集したデータセットに基づいて最適なポリシーを学ぶことを目的としたオフライン強化学習(RL)について検討する。
ペナルティ関数として不確かさ量化器を組み込んだ値反復アルゴリズム(pevi)の悲観的変種を提案する。
論文 参考訳(メタデータ) (2020-12-30T09:06:57Z) - What are the Statistical Limits of Offline RL with Linear Function
Approximation? [70.33301077240763]
オフライン強化学習は、オフライン(観測的)データを活用して、シーケンシャルな意思決定戦略の学習を導く。
本研究は,提案可能なサンプル効率のオフライン強化学習を可能にする表現条件と分布条件の基本的な問題に焦点を当てる。
論文 参考訳(メタデータ) (2020-10-22T17:32:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。