論文の概要: Finite-Sample Analysis of Policy Evaluation for Robust Average Reward Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2502.16816v1
- Date: Mon, 24 Feb 2025 03:55:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:58:04.070098
- Title: Finite-Sample Analysis of Policy Evaluation for Robust Average Reward Reinforcement Learning
- Title(参考訳): ロバスト平均逆強化学習における政策評価の有限サンプル解析
- Authors: Yang Xu, Washim Uddin Mondal, Vaneet Aggarwal,
- Abstract要約: 本稿では、ロバストな平均回帰における政策評価のための第1次有限サンプル解析について述べる。
提案手法はマルチレベルモンテカルロ法(MLMC)を用いてベルマン作用素を効率的に推定する。
本手法は,ロバストな政策評価とロバストな平均報酬推定のために,$tildemathcalO(epsilon-2)$のオーダー最適サンプル複雑性を実現する。
- 参考スコア(独自算出の注目度): 33.71515983281633
- License:
- Abstract: We present the first finite-sample analysis for policy evaluation in robust average-reward Markov Decision Processes (MDPs). Prior works in this setting have established only asymptotic convergence guarantees, leaving open the question of sample complexity. In this work, we address this gap by establishing that the robust Bellman operator is a contraction under the span semi-norm, and developing a stochastic approximation framework with controlled bias. Our approach builds upon Multi-Level Monte Carlo (MLMC) techniques to estimate the robust Bellman operator efficiently. To overcome the infinite expected sample complexity inherent in standard MLMC, we introduce a truncation mechanism based on a geometric distribution, ensuring a finite constant sample complexity while maintaining a small bias that decays exponentially with the truncation level. Our method achieves the order-optimal sample complexity of $\tilde{\mathcal{O}}(\epsilon^{-2})$ for robust policy evaluation and robust average reward estimation, marking a significant advancement in robust reinforcement learning theory.
- Abstract(参考訳): 本稿では、ロバストな平均回帰マルコフ決定過程(MDP)における政策評価のための最初の有限サンプル解析について述べる。
この設定における以前の研究は、漸近収束の保証のみを確立し、サンプルの複雑さに関する疑問を解き放ったままである。
本研究では,強ベルマン作用素が半ノルム下における縮約であることを証明し,制御バイアスを持つ確率近似フレームワークを開発することにより,このギャップに対処する。
提案手法はマルチレベルモンテカルロ法(MLMC)を用いてベルマン作用素を効率的に推定する。
標準MLMCに固有の無限のサンプル複雑性を克服するため,幾何分布に基づくトラニケート機構を導入し,トラニケートレベルに指数関数的に減衰する小さなバイアスを維持しながら,有限なサンプル複雑性を確保する。
本手法は、ロバストな政策評価とロバストな平均報酬推定のために、$\tilde{\mathcal{O}}(\epsilon^{-2})$のオーダー最適サンプル複雑性を達成し、ロバストな強化学習理論における重要な進歩を示す。
関連論文リスト
- Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。
この障壁を克服する斬新でシンプルな推定器を提示する。
論文 参考訳(メタデータ) (2025-01-30T22:29:41Z) - To bootstrap or to rollout? An optimal and adaptive interpolation [4.755935781862859]
本稿では,ブートストラップ法とロールアウト法を補間するベルマン演算子のクラスを紹介する。
我々の推定器は、ブートストラップに基づく時間差(TD)推定器とロールアウトに基づくモンテカルロ(MC)手法の強度を組み合わせる。
論文 参考訳(メタデータ) (2024-11-14T19:00:00Z) - Finite-Time Convergence and Sample Complexity of Actor-Critic Multi-Objective Reinforcement Learning [20.491176017183044]
本稿では多目的強化学習(MORL)問題に取り組む。
MOACと呼ばれる革新的なアクター批判アルゴリズムを導入し、競合する報酬信号間のトレードオフを反復的に行うことでポリシーを見出す。
論文 参考訳(メタデータ) (2024-05-05T23:52:57Z) - Off-Policy Evaluation in Markov Decision Processes under Weak
Distributional Overlap [5.0401589279256065]
本稿では,マルコフ決定過程(MDP)における非政治的評価の課題を再検討する。
本稿では,この環境での良好な性能を期待できる2重頑健性(TDR)推定器のクラスを紹介する。
論文 参考訳(メタデータ) (2024-02-13T03:55:56Z) - Krylov-Bellman boosting: Super-linear policy evaluation in general state
spaces [35.85474784972229]
我々は、一般的な状態空間における政策評価のためのKrylov-Bellman Boosting (KBB)アルゴリズムを提示、解析する。
非パラメトリック回帰(ブースティングなど)を用いてベルマン残差を固定し、最小二乗時間差法(LSTD)により値関数を推定する。
論文 参考訳(メタデータ) (2022-10-20T16:17:14Z) - High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。
そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z) - Finite-Sample Analysis of Off-Policy Natural Actor-Critic Algorithm [4.932130498861987]
重要度サンプリングに基づく自然アクタ-クリティック(nac)アルゴリズムのオフポリシー変種に対する有限サンプル収束保証を提供する。
このアルゴリズムは、ステップの適切な選択の下で$mathcalo(epsilon-3log2(1/epsilon)$のサンプル複雑性を持つ大域的最適ポリシーに収束する。
論文 参考訳(メタデータ) (2021-02-18T13:22:59Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Breaking the Sample Size Barrier in Model-Based Reinforcement Learning
with a Generative Model [50.38446482252857]
本稿では、生成モデル(シミュレータ)へのアクセスを想定して、強化学習のサンプル効率について検討する。
最初に$gamma$-discounted infinite-horizon Markov decision process (MDPs) with state space $mathcalS$ and action space $mathcalA$を考える。
対象の精度を考慮すれば,モデルに基づく計画アルゴリズムが最小限のサンプルの複雑さを実現するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-05-26T17:53:18Z) - Theoretical Convergence of Multi-Step Model-Agnostic Meta-Learning [63.64636047748605]
一般的なマルチステップMAMLアルゴリズムに対して収束保証を提供するための新しい理論フレームワークを開発する。
特に,本研究の結果は,収束を保証するためには,内部段階のステップを逆比例して$N$の内段ステップを選択する必要があることを示唆している。
論文 参考訳(メタデータ) (2020-02-18T19:17:54Z) - The Simulator: Understanding Adaptive Sampling in the
Moderate-Confidence Regime [52.38455827779212]
エミュレータと呼ばれる適応サンプリングを解析するための新しい手法を提案する。
適切なログファクタを組み込んだトップk問題の最初のインスタンスベースの下位境界を証明します。
我々の新しい分析は、後者の問題に対するこの種の最初のエミュレータであるベストアームとトップkの識別に、シンプルでほぼ最適であることを示した。
論文 参考訳(メタデータ) (2017-02-16T23:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。