論文の概要: Sharp Variance-Dependent Bounds in Reinforcement Learning: Best of Both
Worlds in Stochastic and Deterministic Environments
- arxiv url: http://arxiv.org/abs/2301.13446v2
- Date: Wed, 26 Apr 2023 21:26:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 16:35:13.098927
- Title: Sharp Variance-Dependent Bounds in Reinforcement Learning: Best of Both
Worlds in Stochastic and Deterministic Environments
- Title(参考訳): 強化学習におけるシャープ変数依存境界:確率的・決定論的環境における両世界のベスト
- Authors: Runlong Zhou, Zihan Zhang, Simon S. Du
- Abstract要約: マルコフ決定過程(MDP)の分散依存的後悔境界について検討する。
分散に依存した後悔の保証を持つアルゴリズムは、分散度の低い環境を自動的に活用することができる。
環境の微細な分散特性を特徴付けるための2つの新しい環境規範を提案する。
- 参考スコア(独自算出の注目度): 48.96971760679639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study variance-dependent regret bounds for Markov decision processes
(MDPs). Algorithms with variance-dependent regret guarantees can automatically
exploit environments with low variance (e.g., enjoying constant regret on
deterministic MDPs). The existing algorithms are either variance-independent or
suboptimal. We first propose two new environment norms to characterize the
fine-grained variance properties of the environment. For model-based methods,
we design a variant of the MVP algorithm (Zhang et al., 2021a) and use new
analysis techniques show to this algorithm enjoys variance-dependent bounds
with respect to our proposed norms. In particular, this bound is simultaneously
minimax optimal for both stochastic and deterministic MDPs, the first result of
its kind. We further initiate the study on model-free algorithms with
variance-dependent regret bounds by designing a reference-function-based
algorithm with a novel capped-doubling reference update schedule. Lastly, we
also provide lower bounds to complement our upper bounds.
- Abstract(参考訳): マルコフ決定過程(MDP)に対する分散依存的後悔境界について検討した。
分散依存的後悔保証を持つアルゴリズムは、分散度が低い環境(例えば、決定論的MDPの絶え間ない後悔を楽しむなど)を自動で利用することができる。
既存のアルゴリズムは分散非依存または準最適である。
まず,環境の細粒度分散特性を特徴付ける2つの新しい環境規範を提案する。
モデルに基づく手法では,MVP アルゴリズムの変種 (Zhang et al., 2021a) を設計し,本アルゴリズムが提案するノルムに対する分散依存境界を満足することを示す新しい解析手法を用いる。
特に、この境界は確率的および決定論的mdpの両方に最適であり、その種類の最初の結果である。
さらに,新しいcapped-doubling reference updateスケジュールを用いた参照関数型アルゴリズムの設計により,分散依存的後悔境界を持つモデルフリーアルゴリズムの研究をさらに開始する。
最後に、上界を補完する下界も提供します。
関連論文リスト
- A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - Finite Time Analysis of Temporal Difference Learning for Mean-Variance in a Discounted MDP [1.0923877073891446]
割引報酬マルコフ決定プロセスにおける分散政策評価の問題点を考察する。
本稿では,線形関数近似(LFA)を用いた時間差分型学習アルゴリズムについて述べる。
平均二乗の意味で(i) を保持する有限標本境界と、(ii) テールイテレート平均化を用いる場合の高い確率を導出する。
論文 参考訳(メタデータ) (2024-06-12T05:49:53Z) - Constrained Online Two-stage Stochastic Optimization: Algorithm with
(and without) Predictions [19.537289123577022]
有限地平線上の長期制約付きオンライン2段階最適化をT$周期で検討する。
対戦型学習アルゴリズムからオンライン二段階問題のオンラインアルゴリズムを開発する。
論文 参考訳(メタデータ) (2024-01-02T07:46:33Z) - Variance-Dependent Regret Bounds for Linear Bandits and Reinforcement
Learning: Adaptivity and Computational Efficiency [90.40062452292091]
本稿では,不整合雑音を持つ線形帯域に対する計算効率のよい最初のアルゴリズムを提案する。
我々のアルゴリズムは未知のノイズの分散に適応し、$tildeO(d sqrtsum_k = 1K sigma_k2 + d)$ regretを達成する。
また、強化学習において、線形混合マルコフ決定過程(MDP)に対する分散適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-21T00:17:24Z) - Constrained Online Two-stage Stochastic Optimization: Near Optimal Algorithms via Adversarial Learning [1.994307489466967]
有限地平線上の長期制約付きオンライン2段階最適化をT$周期で検討する。
対戦型学習アルゴリズムからオンライン二段階問題のオンラインアルゴリズムを開発する。
論文 参考訳(メタデータ) (2023-02-02T10:33:09Z) - A unified algorithm framework for mean-variance optimization in
discounted Markov decision processes [7.510742715895749]
本稿では,無限水平割引マルコフ決定過程(MDP)におけるリスク-逆平均分散最適化について検討する。
本稿では,処理不能なMPPを標準形式で再定義された報酬関数を持つ標準形式に変換するための擬似平均を導入する。
平均分散最適化のための2レベル最適化構造を持つ統合アルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-15T02:19:56Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。
我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文 参考訳(メタデータ) (2020-03-16T17:15:28Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。