論文の概要: Optimal Single-Policy Sample Complexity and Transient Coverage for Average-Reward Offline RL
- arxiv url: http://arxiv.org/abs/2506.20904v1
- Date: Thu, 26 Jun 2025 00:22:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.921937
- Title: Optimal Single-Policy Sample Complexity and Transient Coverage for Average-Reward Offline RL
- Title(参考訳): 平均逆オフラインRLにおける単一ポリシングの最適複素度と過渡被覆
- Authors: Matthew Zurek, Guy Zamir, Yudong Chen,
- Abstract要約: 本研究では, 平均回帰MDPにおけるオフライン強化学習について検討し, 分散シフトと非一様カバレッジの観点から, さらなる課題を提示する。
対象とする政策,特にバイアススパンと新しい政策が半径を超えることのみに基づき,平均逆オフラインRLに束縛された最初の完全単一政治サンプルの複雑性が生じる。
- 参考スコア(独自算出の注目度): 6.224756774400233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study offline reinforcement learning in average-reward MDPs, which presents increased challenges from the perspectives of distribution shift and non-uniform coverage, and has been relatively underexamined from a theoretical perspective. While previous work obtains performance guarantees under single-policy data coverage assumptions, such guarantees utilize additional complexity measures which are uniform over all policies, such as the uniform mixing time. We develop sharp guarantees depending only on the target policy, specifically the bias span and a novel policy hitting radius, yielding the first fully single-policy sample complexity bound for average-reward offline RL. We are also the first to handle general weakly communicating MDPs, contrasting restrictive structural assumptions made in prior work. To achieve this, we introduce an algorithm based on pessimistic discounted value iteration enhanced by a novel quantile clipping technique, which enables the use of a sharper empirical-span-based penalty function. Our algorithm also does not require any prior parameter knowledge for its implementation. Remarkably, we show via hard examples that learning under our conditions requires coverage assumptions beyond the stationary distribution of the target policy, distinguishing single-policy complexity measures from previously examined cases. We also develop lower bounds nearly matching our main result.
- Abstract(参考訳): 本研究では, 平均回帰MDPにおけるオフライン強化学習について検討し, 分散シフトと非一様カバレッジの観点から, 課題の増大を示唆し, 理論的観点からは比較的過小評価されている。
以前の研究は、単一政治データカバレッジの仮定の下でパフォーマンス保証を得るが、そのような保証は、均一な混合時間のようなすべてのポリシーに一様である追加の複雑さ対策を利用する。
対象とする政策,特にバイアススパンと新しい政策が半径を超えることのみに基づき,平均逆オフラインRLに束縛された最初の完全単一政治サンプルの複雑性が生じる。
我々はまた、従来の作業でなされた制限的な構造的仮定とは対照的に、一般的に弱い通信MDPを扱う最初の人物である。
これを実現するために,新しい定量クリッピング技術によって強化された悲観的割引値反復に基づくアルゴリズムを導入し,よりシャープな経験に基づくペナルティ関数を実現する。
また,本アルゴリズムは,その実装に事前のパラメータ知識を必要としない。
注目すべきは、我々の条件下での学習は、対象政策の定常的な分布を超えた範囲の仮定を必要とすることを示し、以前に検討された事例と区別する。
また、主な結果とほぼ一致する低い境界も開発します。
関連論文リスト
- Statistical Analysis of Policy Space Compression Problem [54.1754937830779]
政策探索手法は強化学習において重要であり、継続的な状態反応と部分的に観察可能な問題に対処するための枠組みを提供する。
政策圧縮による政策空間の削減は、学習プロセスを加速するための強力で報酬のないアプローチとして現れます。
この手法は方針空間をより小さく代表的な集合に凝縮し、元の効果のほとんどを維持している。
論文 参考訳(メタデータ) (2024-11-15T02:46:55Z) - Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。
ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。
我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2023-10-10T02:45:50Z) - Importance-Weighted Offline Learning Done Right [16.4989952150404]
文脈的帯域幅問題におけるオフラインポリシー最適化の問題について検討する。
目標は、準最適行動ポリシーによって収集された決定データのデータセットに基づいて、ほぼ最適ポリシーを学ぶことである。
我々は、citet2015の「単純探索」推定に基づく単純な代替手法が、過去の全ての結果よりもほぼ全ての可能な条件で優れた性能保証を与えることを示した。
論文 参考訳(メタデータ) (2023-09-27T16:42:10Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。