論文の概要: Provably Sample-Efficient Robust Reinforcement Learning with Average Reward
- arxiv url: http://arxiv.org/abs/2505.12462v2
- Date: Thu, 25 Sep 2025 14:09:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 14:16:55.810099
- Title: Provably Sample-Efficient Robust Reinforcement Learning with Average Reward
- Title(参考訳): 平均回帰を用いた高能率ロバスト強化学習の可能性
- Authors: Zachary Roch, Chi Zhang, George Atia, Yue Wang,
- Abstract要約: 本稿では,$ell_p$-normと汚染モデルにより特徴付けられる遷移不確実性を持つロバストなマルコフ決定過程(MDP)を設計した新しいアルゴリズムを提案する。
我々のアルゴリズムは、頑健なMDPの事前知識を必要とせずに動作する。
我々の研究は、ロバスト平均報酬RLのサンプル効率の基本的な理論的理解を提供する。
- 参考スコア(独自算出の注目度): 4.530028899565083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robust reinforcement learning (RL) under the average-reward criterion is essential for long-term decision-making, particularly when the environment may differ from its specification. However, a significant gap exists in understanding the finite-sample complexity of these methods, as most existing work provides only asymptotic guarantees. This limitation hinders their principled understanding and practical deployment, especially in data-limited scenarios. We close this gap by proposing \textbf{Robust Halpern Iteration (RHI)}, a new algorithm designed for robust Markov Decision Processes (MDPs) with transition uncertainty characterized by $\ell_p$-norm and contamination models. Our approach offers three key advantages over previous methods: (1). Weaker Structural Assumptions: RHI only requires the underlying robust MDP to be communicating, a less restrictive condition than the commonly assumed ergodicity or irreducibility; (2). No Prior Knowledge: Our algorithm operates without requiring any prior knowledge of the robust MDP; (3). State-of-the-Art Sample Complexity: To learn an $\epsilon$-optimal robust policy, RHI achieves a sample complexity of $\tilde{\mathcal O}\left(\frac{SA\mathcal H^{2}}{\epsilon^{2}}\right)$, where $S$ and $A$ denote the numbers of states and actions, and $\mathcal H$ is the robust optimal bias span. This result represents the tightest known bound. Our work hence provides essential theoretical understanding of sample efficiency of robust average reward RL.
- Abstract(参考訳): 評価基準に基づくロバスト強化学習(RL)は、特に環境が仕様と異なる場合、長期的な意思決定に不可欠である。
しかしながら、これらの方法の有限サンプル複雑性を理解する際、多くの既存の研究は漸近的保証しか提供しないため、大きなギャップが存在する。
この制限は、特にデータ制限シナリオにおいて、彼らの原則的な理解と実践的なデプロイメントを妨げる。
我々はこのギャップを,$\ell_p$-normと汚染モデルによって特徴づけられる遷移不確実性を持つロバストマルコフ決定過程(MDP)のための新しいアルゴリズムである「textbf{Robust Halpern Iteration (RHI)」を提案することによって埋める。
提案手法は,従来の手法に比べて3つの利点がある。
弱い構造的仮定: RHI は基礎となる堅牢な MDP を通信することしか要求せず、一般的に想定されるエルゴード性や既約性よりも制約の少ない状態である。
事前知識がない:我々のアルゴリズムは、頑健なMDPの事前知識を必要とせずに動作する。
State-of-the-Art Sample Complexity:$\epsilon$-Optimal robust policyを学ぶために、RHIは$\tilde{\mathcal O}\left(\frac{SA\mathcal H^{2}}{\epsilon^{2}}\right)$、$S$と$A$は状態とアクションの数を表し、$\mathcal H$は堅牢な最適バイアススパンである。
この結果は、最も厳密な既知の境界を表す。
そこで本研究は,ロバスト平均報酬RLのサンプル効率について,本質的な理論的理解を提供する。
関連論文リスト
- A Variance-Reduced Cubic-Regularized Newton for Policy Optimization [6.52142708235708]
既存の2階法は、しばしば、重要サンプリングに関する最適でない仮定や非現実的な仮定に悩まされる。
これらの制約を克服するため、分散規則化ニュートン還元推定器であるVR-CR-PNを提案する。
さらなる貢献として、期待された戻り関数に対する新しい水平線を導入し、アルゴリズムが一様サンプルの複雑さを達成できるようにする。
論文 参考訳(メタデータ) (2025-07-14T10:04:02Z) - Sample Complexity of Distributionally Robust Average-Reward Reinforcement Learning [5.8191965840377735]
ほぼ最適サンプル複雑性を実現するアルゴリズムを2つ提案する。
両アルゴリズムが最適なポリシを推定するために,$widetildeOleft(|mathbfS||mathbfA| t_mathrmmix2varepsilon-2right)のサンプル複雑性が得られることを証明した。
これはDR平均逆強化学習における最初の有限サンプル収束保証である。
論文 参考訳(メタデータ) (2025-05-15T06:42:25Z) - Finite-Sample Analysis of Policy Evaluation for Robust Average Reward Reinforcement Learning [33.71515983281633]
本稿では、ロバストな平均回帰における政策評価のための第1次有限サンプル解析について述べる。
提案手法はマルチレベルモンテカルロ法(MLMC)を用いてベルマン作用素を効率的に推定する。
本手法は,ロバストな政策評価とロバストな平均報酬推定のために,$tildemathcalO(epsilon-2)$のオーダー最適サンプル複雑性を実現する。
論文 参考訳(メタデータ) (2025-02-24T03:55:09Z) - Span-Agnostic Optimal Sample Complexity and Oracle Inequalities for Average-Reward RL [6.996002801232415]
生成モデルを用いてマルコフ決定過程(MDP)において,$varepsilon$-optimal Policyを求める際のサンプル複雑性について検討した。
我々は,知識を必要とせず,最適なスパンベース複雑性に適合するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-02-16T19:10:55Z) - Towards a Sharp Analysis of Offline Policy Learning for $f$-Divergence-Regularized Contextual Bandits [49.96531901205305]
我々は$f$-divergence-regularized offline policy learningを分析する。
逆Kullback-Leibler (KL) の発散に対して、単極集中性の下での最初の$tildeO(epsilon-1)$サンプル複雑性を与える。
これらの結果は,$f$-divergence-regularized policy learningの包括的理解に向けて大きな一歩を踏み出したものと考えられる。
論文 参考訳(メタデータ) (2025-02-09T22:14:45Z) - Uncertainty-Aware Reward-Free Exploration with General Function Approximation [69.27868448449755]
本稿では、algと呼ばれる報酬のない強化学習アルゴリズムを提案する。
私たちのアルゴリズムの背後にある重要なアイデアは、環境を探索する上で不確実性を認識した本質的な報酬である。
実験の結果、GFA-RFEは最先端の教師なしRLアルゴリズムよりも優れ、あるいは同等であることがわかった。
論文 参考訳(メタデータ) (2024-06-24T01:37:18Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。
PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文 参考訳(メタデータ) (2021-07-23T19:38:17Z) - High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。
そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。