論文の概要: Distributionally Robust Optimization Efficiently Solves Offline
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.13289v1
- Date: Mon, 22 May 2023 17:50:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 13:40:01.674517
- Title: Distributionally Robust Optimization Efficiently Solves Offline
Reinforcement Learning
- Title(参考訳): オフライン強化学習を効果的に行う分散ロバスト最適化
- Authors: Yue Wang, Yuting Hu, Jinjun Xiong, Shaofeng Zou
- Abstract要約: オフライン強化学習は、アクティブな探索なしに、事前に収集されたデータセットから最適なポリシーを見つけることを目的としている。
既存の研究では、不確実性に直面した悲観主義の原則を採用し、訪れない状態-行動ペアに対して報酬を罰する。
本稿では,不確実性集合を用いた遷移カーネルの不確実性を直接モデル化し,分散的ロバストな最適化手法を用いる。
- 参考スコア(独自算出の注目度): 40.28129124110133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning aims to find the optimal policy from a
pre-collected dataset without active exploration. This problem is faced with
major challenges, such as a limited amount of data and distribution shift.
Existing studies employ the principle of pessimism in face of uncertainty, and
penalize rewards for less visited state-action pairs. In this paper, we
directly model the uncertainty in the transition kernel using an uncertainty
set, and then employ the approach of distributionally robust optimization that
optimizes the worst-case performance over the uncertainty set. We first design
a Hoeffding-style uncertainty set, which guarantees that the true transition
kernel lies in the uncertainty set with high probability. We theoretically
prove that it achieves an $\epsilon$-accuracy with a sample complexity of
$\mathcal{O}\left((1-\gamma)^{-4}\epsilon^{-2}SC^{\pi^*} \right)$, where
$\gamma$ is the discount factor, $C^{\pi^*}$ is the single-policy
concentrability for any comparator policy $\pi^*$, and $S$ is the number of
states. We further design a Bernstein-style uncertainty set, which does not
necessarily guarantee the true transition kernel lies in the uncertainty set.
We show an improved and near-optimal sample complexity of
$\mathcal{O}\left((1-\gamma)^{-3}\epsilon^{-2}\left(SC^{\pi^*}+(\mu_{\min})^{-1}\right)
\right)$, where $\mu_{\min}$ denotes the minimal non-zero entry of the behavior
distribution. In addition, the computational complexity of our algorithms is
the same as one of the LCB-based methods in the literature. Our results
demonstrate that distributionally robust optimization method can also
efficiently solve offline reinforcement learning.
- Abstract(参考訳): オフライン強化学習は、アクティブな探索なしに事前に収集されたデータセットから最適なポリシーを見つけることを目的としている。
この問題は、限られた量のデータや分散シフトなど、大きな課題に直面している。
既存の研究では、不確実性に直面した悲観主義の原則を採用し、訪れない状態-行動ペアに対して報酬を罰する。
本稿では,不確実性集合を用いた遷移カーネルの不確実性を直接モデル化し,不確実性集合に対する最悪の性能を最適化する分布的ロバストな最適化手法を用いる。
まず,真の遷移核が確率の高い不確かさ集合にあることを保証したhoeffding型不確実性集合を設計する。
理論的には、$\epsilon$-accuracy は$\mathcal{o}\left((1-\gamma)^{-4}\epsilon^{-2}sc^{\pi^*} \right)$であり、$\gamma$ はディスカウント係数、$c^{\pi^*}$ は任意のコンパレータポリシー $\pi^*$、$s$ は状態数である。
我々はさらに、真の遷移核が不確かさ集合にあることを必ずしも保証しないベルンシュタイン型不確実性集合をデザインする。
例えば、$\mathcal{o}\left((1-\gamma)^{-3}\epsilon^{-2}\left(sc^{\pi^*}+(\mu_{\min})^{-1}\right) \right)$ である。
さらに,我々のアルゴリズムの計算複雑性は,文献における LCB に基づく手法の1つと同じである。
その結果,オフライン強化学習を効率的に解くことができることがわかった。
関連論文リスト
- Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。
エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。
既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - Improved Sample Complexity Bounds for Distributionally Robust
Reinforcement Learning [3.222802562733787]
トレーニング環境とテスト環境のパラメータミスマッチに対して頑健な制御ポリシーを学習することの問題点を考察する。
本研究では,4つの異なる発散によって特定される不確実性集合に対して,ロバスト位相値学習(RPVL)アルゴリズムを提案する。
提案アルゴリズムは,既存の結果より一様によいサンプル複雑性を$tildemathcalO(|mathcalSmathcalA| H5)$とする。
論文 参考訳(メタデータ) (2023-03-05T21:47:08Z) - A Finite Sample Complexity Bound for Distributionally Robust Q-learning [16.88062487980405]
我々は,展開環境が訓練環境と異なる強化学習環境を考える。
ロバストなマルコフ決定プロセスの定式化を適用することで、Liuらで研究されている分布的にロバストな$Q$ラーニングフレームワークを拡張します。
これはモデルのないロバストなRL問題に対する最初のサンプル複雑性結果である。
論文 参考訳(メタデータ) (2023-02-26T01:15:32Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - Sharper Rates and Flexible Framework for Nonconvex SGD with Client and
Data Sampling [64.31011847952006]
我々は、平均$n$スムーズでおそらくは非カラー関数のほぼ定常点を求める問題を再考する。
我々は$smallsfcolorgreen$を一般化し、事実上あらゆるサンプリングメカニズムで確実に動作するようにします。
我々は、スムーズな非カラー状態における最適境界の最も一般的な、最も正確な解析を提供する。
論文 参考訳(メタデータ) (2022-06-05T21:32:33Z) - Settling the Sample Complexity of Model-Based Offline Reinforcement
Learning [50.5790774201146]
オフライン強化学習(RL)は、事前収集されたデータを用いて、さらなる探索を行わずに学習する。
事前のアルゴリズムや分析は、最適なサンプルの複雑さに悩まされるか、サンプルの最適性に到達するために高いバーンインコストがかかるかのいずれかである。
モデルベース(あるいは"プラグイン")アプローチは,バーンインコストを伴わずに,最小限のサンプル複雑性を実現することを実証する。
論文 参考訳(メタデータ) (2022-04-11T17:26:19Z) - Non-convex Distributionally Robust Optimization: Non-asymptotic Analysis [16.499651513178012]
分散ロバスト最適化(DRO)は、分散シフトに対してロバストなモデルを学ぶために広く使われている手法である。
目的関数はおそらく非滑らかであり,正規化勾配降下を有するにもかかわらず,非漸近収束を保証する。
論文 参考訳(メタデータ) (2021-10-24T14:56:38Z) - Breaking the Sample Size Barrier in Model-Based Reinforcement Learning
with a Generative Model [50.38446482252857]
本稿では、生成モデル(シミュレータ)へのアクセスを想定して、強化学習のサンプル効率について検討する。
最初に$gamma$-discounted infinite-horizon Markov decision process (MDPs) with state space $mathcalS$ and action space $mathcalA$を考える。
対象の精度を考慮すれば,モデルに基づく計画アルゴリズムが最小限のサンプルの複雑さを実現するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-05-26T17:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。