論文の概要: Distributionally Robust Optimization Efficiently Solves Offline
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.13289v1
- Date: Mon, 22 May 2023 17:50:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 13:40:01.674517
- Title: Distributionally Robust Optimization Efficiently Solves Offline
Reinforcement Learning
- Title(参考訳): オフライン強化学習を効果的に行う分散ロバスト最適化
- Authors: Yue Wang, Yuting Hu, Jinjun Xiong, Shaofeng Zou
- Abstract要約: オフライン強化学習は、アクティブな探索なしに、事前に収集されたデータセットから最適なポリシーを見つけることを目的としている。
既存の研究では、不確実性に直面した悲観主義の原則を採用し、訪れない状態-行動ペアに対して報酬を罰する。
本稿では,不確実性集合を用いた遷移カーネルの不確実性を直接モデル化し,分散的ロバストな最適化手法を用いる。
- 参考スコア(独自算出の注目度): 40.28129124110133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning aims to find the optimal policy from a
pre-collected dataset without active exploration. This problem is faced with
major challenges, such as a limited amount of data and distribution shift.
Existing studies employ the principle of pessimism in face of uncertainty, and
penalize rewards for less visited state-action pairs. In this paper, we
directly model the uncertainty in the transition kernel using an uncertainty
set, and then employ the approach of distributionally robust optimization that
optimizes the worst-case performance over the uncertainty set. We first design
a Hoeffding-style uncertainty set, which guarantees that the true transition
kernel lies in the uncertainty set with high probability. We theoretically
prove that it achieves an $\epsilon$-accuracy with a sample complexity of
$\mathcal{O}\left((1-\gamma)^{-4}\epsilon^{-2}SC^{\pi^*} \right)$, where
$\gamma$ is the discount factor, $C^{\pi^*}$ is the single-policy
concentrability for any comparator policy $\pi^*$, and $S$ is the number of
states. We further design a Bernstein-style uncertainty set, which does not
necessarily guarantee the true transition kernel lies in the uncertainty set.
We show an improved and near-optimal sample complexity of
$\mathcal{O}\left((1-\gamma)^{-3}\epsilon^{-2}\left(SC^{\pi^*}+(\mu_{\min})^{-1}\right)
\right)$, where $\mu_{\min}$ denotes the minimal non-zero entry of the behavior
distribution. In addition, the computational complexity of our algorithms is
the same as one of the LCB-based methods in the literature. Our results
demonstrate that distributionally robust optimization method can also
efficiently solve offline reinforcement learning.
- Abstract(参考訳): オフライン強化学習は、アクティブな探索なしに事前に収集されたデータセットから最適なポリシーを見つけることを目的としている。
この問題は、限られた量のデータや分散シフトなど、大きな課題に直面している。
既存の研究では、不確実性に直面した悲観主義の原則を採用し、訪れない状態-行動ペアに対して報酬を罰する。
本稿では,不確実性集合を用いた遷移カーネルの不確実性を直接モデル化し,不確実性集合に対する最悪の性能を最適化する分布的ロバストな最適化手法を用いる。
まず,真の遷移核が確率の高い不確かさ集合にあることを保証したhoeffding型不確実性集合を設計する。
理論的には、$\epsilon$-accuracy は$\mathcal{o}\left((1-\gamma)^{-4}\epsilon^{-2}sc^{\pi^*} \right)$であり、$\gamma$ はディスカウント係数、$c^{\pi^*}$ は任意のコンパレータポリシー $\pi^*$、$s$ は状態数である。
我々はさらに、真の遷移核が不確かさ集合にあることを必ずしも保証しないベルンシュタイン型不確実性集合をデザインする。
例えば、$\mathcal{o}\left((1-\gamma)^{-3}\epsilon^{-2}\left(sc^{\pi^*}+(\mu_{\min})^{-1}\right) \right)$ である。
さらに,我々のアルゴリズムの計算複雑性は,文献における LCB に基づく手法の1つと同じである。
その結果,オフライン強化学習を効率的に解くことができることがわかった。
関連論文リスト
- Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。
エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。
既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - Breaking the Heavy-Tailed Noise Barrier in Stochastic Optimization Problems [56.86067111855056]
構造密度の重み付き雑音によるクリップ最適化問題を考察する。
勾配が有限の順序モーメントを持つとき、$mathcalO(K-(alpha - 1)/alpha)$よりも高速な収束率が得られることを示す。
得られた推定値が無視可能なバイアスと制御可能な分散を持つことを示す。
論文 参考訳(メタデータ) (2023-11-07T17:39:17Z) - Improved Sample Complexity Bounds for Distributionally Robust
Reinforcement Learning [3.222802562733787]
トレーニング環境とテスト環境のパラメータミスマッチに対して頑健な制御ポリシーを学習することの問題点を考察する。
本研究では,4つの異なる発散によって特定される不確実性集合に対して,ロバスト位相値学習(RPVL)アルゴリズムを提案する。
提案アルゴリズムは,既存の結果より一様によいサンプル複雑性を$tildemathcalO(|mathcalSmathcalA| H5)$とする。
論文 参考訳(メタデータ) (2023-03-05T21:47:08Z) - Stochastic Inexact Augmented Lagrangian Method for Nonconvex Expectation
Constrained Optimization [88.0031283949404]
多くの実世界の問題は複雑な非機能的制約を持ち、多くのデータポイントを使用する。
提案手法は,従来最もよく知られた結果で既存手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-19T14:48:54Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - Sharper Rates and Flexible Framework for Nonconvex SGD with Client and
Data Sampling [64.31011847952006]
我々は、平均$n$スムーズでおそらくは非カラー関数のほぼ定常点を求める問題を再考する。
我々は$smallsfcolorgreen$を一般化し、事実上あらゆるサンプリングメカニズムで確実に動作するようにします。
我々は、スムーズな非カラー状態における最適境界の最も一般的な、最も正確な解析を提供する。
論文 参考訳(メタデータ) (2022-06-05T21:32:33Z) - Stochastic regularized majorization-minimization with weakly convex and
multi-convex surrogates [0.0]
提案アルゴリズムの最初の最適性ギャップは,非テンソル依存データ設定下での様々な手法の期待損失率で減衰することを示す。
非テンション依存データ設定の下で, 各種手法の収束点を求める。
論文 参考訳(メタデータ) (2022-01-05T15:17:35Z) - Distributed Sparse Regression via Penalization [5.990069843501885]
エージェントのネットワーク上の線形回帰を、(集中ノードを持たない)無向グラフとしてモデル化する。
推定問題は、局所的なLASSO損失関数の和とコンセンサス制約の2次ペナルティの最小化として定式化される。
本稿では, ペナル化問題に適用した近似勾配アルゴリズムが, 集中的な統計的誤差の順序の許容値まで線形に収束することを示す。
論文 参考訳(メタデータ) (2021-11-12T01:51:50Z) - Non-convex Distributionally Robust Optimization: Non-asymptotic Analysis [16.499651513178012]
分散ロバスト最適化(DRO)は、分散シフトに対してロバストなモデルを学ぶために広く使われている手法である。
目的関数はおそらく非滑らかであり,正規化勾配降下を有するにもかかわらず,非漸近収束を保証する。
論文 参考訳(メタデータ) (2021-10-24T14:56:38Z) - Breaking the Sample Size Barrier in Model-Based Reinforcement Learning
with a Generative Model [50.38446482252857]
本稿では、生成モデル(シミュレータ)へのアクセスを想定して、強化学習のサンプル効率について検討する。
最初に$gamma$-discounted infinite-horizon Markov decision process (MDPs) with state space $mathcalS$ and action space $mathcalA$を考える。
対象の精度を考慮すれば,モデルに基づく計画アルゴリズムが最小限のサンプルの複雑さを実現するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-05-26T17:53:18Z) - Stochastic Proximal Gradient Algorithm with Minibatches. Application to
Large Scale Learning Models [2.384873896423002]
非滑らかな成分を持つ汎用合成対象関数に対する勾配アルゴリズムのミニバッチ変種を開発し解析する。
我々は、最小バッチサイズ$N$に対して、$mathcalO(frac1Nepsilon)$$epsilon-$subityが最適解に期待される二次距離で達成されるような、定数および変数のステップサイズ反復ポリシーの複雑さを提供する。
論文 参考訳(メタデータ) (2020-03-30T10:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。