Fugu-MT 論文翻訳(概要): Distributionally Robust Optimization Efficiently Solves Offline Reinforcement Learning

論文の概要: Distributionally Robust Optimization Efficiently Solves Offline Reinforcement Learning

arxiv url: http://arxiv.org/abs/2305.13289v1
Date: Mon, 22 May 2023 17:50:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-23 13:40:01.674517
Title: Distributionally Robust Optimization Efficiently Solves Offline Reinforcement Learning
Title（参考訳）: オフライン強化学習を効果的に行う分散ロバスト最適化
Authors: Yue Wang, Yuting Hu, Jinjun Xiong, Shaofeng Zou
Abstract要約: オフライン強化学習は、アクティブな探索なしに、事前に収集されたデータセットから最適なポリシーを見つけることを目的としている。既存の研究では、不確実性に直面した悲観主義の原則を採用し、訪れない状態-行動ペアに対して報酬を罰する。本稿では,不確実性集合を用いた遷移カーネルの不確実性を直接モデル化し,分散的ロバストな最適化手法を用いる。
参考スコア（独自算出の注目度）: 40.28129124110133
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Offline reinforcement learning aims to find the optimal policy from a pre-collected dataset without active exploration. This problem is faced with major challenges, such as a limited amount of data and distribution shift. Existing studies employ the principle of pessimism in face of uncertainty, and penalize rewards for less visited state-action pairs. In this paper, we directly model the uncertainty in the transition kernel using an uncertainty set, and then employ the approach of distributionally robust optimization that optimizes the worst-case performance over the uncertainty set. We first design a Hoeffding-style uncertainty set, which guarantees that the true transition kernel lies in the uncertainty set with high probability. We theoretically prove that it achieves an $\epsilon$-accuracy with a sample complexity of $\mathcal{O}\left((1-\gamma)^{-4}\epsilon^{-2}SC^{\pi^*} \right)$, where $\gamma$ is the discount factor, $C^{\pi^*}$ is the single-policy concentrability for any comparator policy $\pi^*$, and $S$ is the number of states. We further design a Bernstein-style uncertainty set, which does not necessarily guarantee the true transition kernel lies in the uncertainty set. We show an improved and near-optimal sample complexity of $\mathcal{O}\left((1-\gamma)^{-3}\epsilon^{-2}\left(SC^{\pi^*}+(\mu_{\min})^{-1}\right) \right)$, where $\mu_{\min}$ denotes the minimal non-zero entry of the behavior distribution. In addition, the computational complexity of our algorithms is the same as one of the LCB-based methods in the literature. Our results demonstrate that distributionally robust optimization method can also efficiently solve offline reinforcement learning.
Abstract（参考訳）: オフライン強化学習は、アクティブな探索なしに事前に収集されたデータセットから最適なポリシーを見つけることを目的としている。この問題は、限られた量のデータや分散シフトなど、大きな課題に直面している。既存の研究では、不確実性に直面した悲観主義の原則を採用し、訪れない状態-行動ペアに対して報酬を罰する。本稿では,不確実性集合を用いた遷移カーネルの不確実性を直接モデル化し,不確実性集合に対する最悪の性能を最適化する分布的ロバストな最適化手法を用いる。まず,真の遷移核が確率の高い不確かさ集合にあることを保証したhoeffding型不確実性集合を設計する。理論的には、$\epsilon$-accuracy は$\mathcal{o}\left((1-\gamma)^{-4}\epsilon^{-2}sc^{\pi^*} \right)$であり、$\gamma$ はディスカウント係数、$c^{\pi^*}$ は任意のコンパレータポリシー $\pi^*$、$s$ は状態数である。我々はさらに、真の遷移核が不確かさ集合にあることを必ずしも保証しないベルンシュタイン型不確実性集合をデザインする。例えば、$\mathcal{o}\left((1-\gamma)^{-3}\epsilon^{-2}\left(sc^{\pi^*}+(\mu_{\min})^{-1}\right) \right)$ である。さらに,我々のアルゴリズムの計算複雑性は,文献における LCB に基づく手法の1つと同じである。その結果,オフライン強化学習を効率的に解くことができることがわかった。

関連論文リスト

A Variance-Reduced Cubic-Regularized Newton for Policy Optimization [6.52142708235708]
既存の2階法は、しばしば、重要サンプリングに関する最適でない仮定や非現実的な仮定に悩まされる。これらの制約を克服するため、分散規則化ニュートン還元推定器であるVR-CR-PNを提案する。さらなる貢献として、期待された戻り関数に対する新しい水平線を導入し、アルゴリズムが一様サンプルの複雑さを達成できるようにする。
論文参考訳（メタデータ） (2025-07-14T10:04:02Z)
Enhancing Distributional Robustness in Principal Component Analysis by Wasserstein Distances [7.695578200868269]
主成分分析(PCA)の分布ロバスト最適化(DRO)モデルについて,基礎となる確率分布の不確実性を考慮する。結果の定式化は非滑らかな制約付き min-max 最適化問題につながり、曖昧性集合はタイプ2$ワッサーシュタイン距離で分布の不確かさを捉える。この明示的な特徴付けは、元の DRO モデルを、複雑な非滑らかな項を持つスティーフェル多様体上の最小化問題に同値に再構成する。
論文参考訳（メタデータ） (2025-03-04T11:00:08Z)
Efficiently Solving Discounted MDPs with Predictions on Transition Matrices [6.199300239433395]
生成モデルに基づくDMDP(Discounted Markov Decision Processs)について検討した。 DMDPの解法において,遷移行列上での予測がサンプル効率をいかに向上させるかを検討するための新しい枠組みを提案する。
論文参考訳（メタデータ） (2025-02-21T09:59:46Z)
Span-Agnostic Optimal Sample Complexity and Oracle Inequalities for Average-Reward RL [6.996002801232415]
生成モデルを用いてマルコフ決定過程(MDP)において,$varepsilon$-optimal Policyを求める際のサンプル複雑性について検討した。我々は,知識を必要とせず,最適なスパンベース複雑性に適合するアルゴリズムを開発した。
論文参考訳（メタデータ） (2025-02-16T19:10:55Z)
Nearly Optimal Sample Complexity of Offline KL-Regularized Contextual Bandits under Single-Policy Concentrability [49.96531901205305]
我々は,オフラインの文脈的包帯に対する単一政治中心性の下でのサンプル複雑性を$tildeO(epsilon-1)$とするemphfirstアルゴリズムを提案する。我々の証明は、KL正則化の強い凸性と、真の報酬と悲観的推定子のギャップの条件的非負性を利用する。我々は,このアルゴリズムを文脈的デュエル帯域に拡張し,ほぼ最適なサンプル複雑性を実現する。
論文参考訳（メタデータ） (2025-02-09T22:14:45Z)
Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文参考訳（メタデータ） (2024-02-14T07:52:00Z)
Breaking the Heavy-Tailed Noise Barrier in Stochastic Optimization Problems [56.86067111855056]
構造密度の重み付き雑音によるクリップ最適化問題を考察する。勾配が有限の順序モーメントを持つとき、$mathcalO(K-(alpha - 1)/alpha)$よりも高速な収束率が得られることを示す。得られた推定値が無視可能なバイアスと制御可能な分散を持つことを示す。
論文参考訳（メタデータ） (2023-11-07T17:39:17Z)
Improved Sample Complexity Bounds for Distributionally Robust Reinforcement Learning [3.222802562733787]
トレーニング環境とテスト環境のパラメータミスマッチに対して頑健な制御ポリシーを学習することの問題点を考察する。本研究では,4つの異なる発散によって特定される不確実性集合に対して,ロバスト位相値学習(RPVL)アルゴリズムを提案する。提案アルゴリズムは,既存の結果より一様によいサンプル複雑性を$tildemathcalO(|mathcalSmathcalA| H5)$とする。
論文参考訳（メタデータ） (2023-03-05T21:47:08Z)
Stochastic Inexact Augmented Lagrangian Method for Nonconvex Expectation Constrained Optimization [88.0031283949404]
多くの実世界の問題は複雑な非機能的制約を持ち、多くのデータポイントを使用する。提案手法は,従来最もよく知られた結果で既存手法よりも優れた性能を示す。
論文参考訳（メタデータ） (2022-12-19T14:48:54Z)
Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文参考訳（メタデータ） (2022-08-11T04:12:50Z)
Sharper Rates and Flexible Framework for Nonconvex SGD with Client and Data Sampling [64.31011847952006]
我々は、平均$n$スムーズでおそらくは非カラー関数のほぼ定常点を求める問題を再考する。我々は$smallsfcolorgreen$を一般化し、事実上あらゆるサンプリングメカニズムで確実に動作するようにします。我々は、スムーズな非カラー状態における最適境界の最も一般的な、最も正確な解析を提供する。
論文参考訳（メタデータ） (2022-06-05T21:32:33Z)
Stochastic regularized majorization-minimization with weakly convex and multi-convex surrogates [0.0]
提案アルゴリズムの最初の最適性ギャップは,非テンソル依存データ設定下での様々な手法の期待損失率で減衰することを示す。非テンション依存データ設定の下で, 各種手法の収束点を求める。
論文参考訳（メタデータ） (2022-01-05T15:17:35Z)
Distributed Sparse Regression via Penalization [5.990069843501885]
エージェントのネットワーク上の線形回帰を、(集中ノードを持たない)無向グラフとしてモデル化する。推定問題は、局所的なLASSO損失関数の和とコンセンサス制約の2次ペナルティの最小化として定式化される。本稿では, ペナル化問題に適用した近似勾配アルゴリズムが, 集中的な統計的誤差の順序の許容値まで線形に収束することを示す。
論文参考訳（メタデータ） (2021-11-12T01:51:50Z)
Non-convex Distributionally Robust Optimization: Non-asymptotic Analysis [16.499651513178012]
分散ロバスト最適化(DRO)は、分散シフトに対してロバストなモデルを学ぶために広く使われている手法である。目的関数はおそらく非滑らかであり,正規化勾配降下を有するにもかかわらず,非漸近収束を保証する。
論文参考訳（メタデータ） (2021-10-24T14:56:38Z)
Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文参考訳（メタデータ） (2021-10-09T21:13:48Z)
Breaking the Sample Size Barrier in Model-Based Reinforcement Learning with a Generative Model [50.38446482252857]
本稿では、生成モデル(シミュレータ)へのアクセスを想定して、強化学習のサンプル効率について検討する。最初に$gamma$-discounted infinite-horizon Markov decision process (MDPs) with state space $mathcalS$ and action space $mathcalA$を考える。対象の精度を考慮すれば,モデルに基づく計画アルゴリズムが最小限のサンプルの複雑さを実現するのに十分であることを示す。
論文参考訳（メタデータ） (2020-05-26T17:53:18Z)
Stochastic Proximal Gradient Algorithm with Minibatches. Application to Large Scale Learning Models [2.384873896423002]
非滑らかな成分を持つ汎用合成対象関数に対する勾配アルゴリズムのミニバッチ変種を開発し解析する。我々は、最小バッチサイズ$N$に対して、$mathcalO(frac1Nepsilon)$$epsilon-$subityが最適解に期待される二次距離で達成されるような、定数および変数のステップサイズ反復ポリシーの複雑さを提供する。
論文参考訳（メタデータ） (2020-03-30T10:43:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。