論文の概要: Achieving the Minimax Optimal Sample Complexity of Offline Reinforcement
Learning: A DRO-Based Approach
- arxiv url: http://arxiv.org/abs/2305.13289v3
- Date: Sun, 3 Dec 2023 23:00:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 23:31:48.357944
- Title: Achieving the Minimax Optimal Sample Complexity of Offline Reinforcement
Learning: A DRO-Based Approach
- Title(参考訳): オフライン強化学習におけるミニマックス最適サンプル複雑さの達成:DROに基づくアプローチ
- Authors: Yue Wang, Jinjun Xiong, Shaofeng Zou
- Abstract要約: オフライン強化学習は、アクティブな探索なしに、事前に収集されたデータセットから学習することを目的としている。
既存のアプローチでは、探索されていない状態-作用対の報酬を罰することで不確実性に対する悲観的なスタンスを採用している。
分布的にロバストな最適化手法はこれらの課題にも対処でき、最小限の最適化であることを示す。
- 参考スコア(独自算出の注目度): 41.45280954901834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning aims to learn from pre-collected datasets
without active exploration. This problem faces significant challenges,
including limited data availability and distributional shifts. Existing
approaches adopt a pessimistic stance towards uncertainty by penalizing rewards
of under-explored state-action pairs to estimate value functions
conservatively. In this paper, we show that the distributionally robust
optimization (DRO) based approach can also address these challenges and is
minimax optimal. Specifically, we directly model the uncertainty in the
transition kernel and construct an uncertainty set of statistically plausible
transition kernels. We then find the policy that optimizes the worst-case
performance over this uncertainty set. We first design a metric-based
Hoeffding-style uncertainty set such that with high probability the true
transition kernel is in this set. We prove that to achieve a sub-optimality gap
of $\epsilon$, the sample complexity is
$\mathcal{O}(S^2C^{\pi^*}\epsilon^{-2}(1-\gamma)^{-4})$, where $\gamma$ is the
discount factor, $S$ is the number of states, and $C^{\pi^*}$ is the
single-policy clipped concentrability coefficient which quantifies the
distribution shift. To achieve the optimal sample complexity, we further
propose a less conservative Bernstein-style uncertainty set, which, however,
does not necessarily include the true transition kernel. We show that an
improved sample complexity of
$\mathcal{O}(SC^{\pi^*}\epsilon^{-2}(1-\gamma)^{-3})$ can be obtained, which
matches with the minimax lower bound for offline reinforcement learning, and
thus is minimax optimal.
- Abstract(参考訳): オフライン強化学習は、アクティブな探索なしに事前に収集されたデータセットから学ぶことを目的としている。
この問題は、データ可用性や分散シフトの制限など、重大な課題に直面している。
既存のアプローチでは、不確実性に対する悲観的なスタンスを採用し、探索されていない状態-作用対の報酬を、保守的に値関数を推定する。
本稿では,分散ロバスト最適化(DRO)に基づく手法により,これらの課題にも対処できることを示す。
具体的には、遷移核における不確かさを直接モデル化し、統計的に妥当な遷移核の不確実性集合を構成する。
そして、この不確実性セットに対して最悪のパフォーマンスを最適化するポリシーを見つけます。
まず、高い確率で真の遷移カーネルがこの集合に含まれるような計量ベースのHoeffding型不確実性集合を設計する。
サンプル複雑性を$\mathcal{O}(S^2C^{\pi^*}\epsilon^{-2}(1-\gamma)^{-4})$とすると、$\gamma$は割引係数であり、$S$は状態数であり、$C^{\pi^*}$は分布シフトを定量化する単極クリッピング集中係数である。
最適なサンプル複雑性を達成するため、より保守的なベルンシュタイン型不確実性集合も提案するが、必ずしも真の遷移核を含まない。
オフライン強化学習における最小値の最小値と一致する$\mathcal{O}(SC^{\pi^*}\epsilon^{-2}(1-\gamma)^{-3})$の改善されたサンプル複雑性が得られた。
関連論文リスト
- Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。
エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。
既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - Improved Sample Complexity Bounds for Distributionally Robust
Reinforcement Learning [3.222802562733787]
トレーニング環境とテスト環境のパラメータミスマッチに対して頑健な制御ポリシーを学習することの問題点を考察する。
本研究では,4つの異なる発散によって特定される不確実性集合に対して,ロバスト位相値学習(RPVL)アルゴリズムを提案する。
提案アルゴリズムは,既存の結果より一様によいサンプル複雑性を$tildemathcalO(|mathcalSmathcalA| H5)$とする。
論文 参考訳(メタデータ) (2023-03-05T21:47:08Z) - A Finite Sample Complexity Bound for Distributionally Robust Q-learning [16.88062487980405]
我々は,展開環境が訓練環境と異なる強化学習環境を考える。
ロバストなマルコフ決定プロセスの定式化を適用することで、Liuらで研究されている分布的にロバストな$Q$ラーニングフレームワークを拡張します。
これはモデルのないロバストなRL問題に対する最初のサンプル複雑性結果である。
論文 参考訳(メタデータ) (2023-02-26T01:15:32Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - Sharper Rates and Flexible Framework for Nonconvex SGD with Client and
Data Sampling [64.31011847952006]
我々は、平均$n$スムーズでおそらくは非カラー関数のほぼ定常点を求める問題を再考する。
我々は$smallsfcolorgreen$を一般化し、事実上あらゆるサンプリングメカニズムで確実に動作するようにします。
我々は、スムーズな非カラー状態における最適境界の最も一般的な、最も正確な解析を提供する。
論文 参考訳(メタデータ) (2022-06-05T21:32:33Z) - Settling the Sample Complexity of Model-Based Offline Reinforcement
Learning [50.5790774201146]
オフライン強化学習(RL)は、事前収集されたデータを用いて、さらなる探索を行わずに学習する。
事前のアルゴリズムや分析は、最適なサンプルの複雑さに悩まされるか、サンプルの最適性に到達するために高いバーンインコストがかかるかのいずれかである。
モデルベース(あるいは"プラグイン")アプローチは,バーンインコストを伴わずに,最小限のサンプル複雑性を実現することを実証する。
論文 参考訳(メタデータ) (2022-04-11T17:26:19Z) - Non-convex Distributionally Robust Optimization: Non-asymptotic Analysis [16.499651513178012]
分散ロバスト最適化(DRO)は、分散シフトに対してロバストなモデルを学ぶために広く使われている手法である。
目的関数はおそらく非滑らかであり,正規化勾配降下を有するにもかかわらず,非漸近収束を保証する。
論文 参考訳(メタデータ) (2021-10-24T14:56:38Z) - Breaking the Sample Size Barrier in Model-Based Reinforcement Learning
with a Generative Model [50.38446482252857]
本稿では、生成モデル(シミュレータ)へのアクセスを想定して、強化学習のサンプル効率について検討する。
最初に$gamma$-discounted infinite-horizon Markov decision process (MDPs) with state space $mathcalS$ and action space $mathcalA$を考える。
対象の精度を考慮すれば,モデルに基づく計画アルゴリズムが最小限のサンプルの複雑さを実現するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-05-26T17:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。