論文の概要: A Finite-Sample Analysis of Distributionally Robust Average-Reward Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.12462v1
- Date: Sun, 18 May 2025 15:34:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.250778
- Title: A Finite-Sample Analysis of Distributionally Robust Average-Reward Reinforcement Learning
- Title(参考訳): 分布ロバスト平均逆強化学習の有限サンプル解析
- Authors: Zachary Roch, Chi Zhang, George Atia, Yue Wang,
- Abstract要約: Halpern Iteration (RHI) を提案する。
RHIは、$tildemathcal Oleft(fracSAmathcal H22right)$のほぼ最適なサンプル複雑性を持つ、$epsilon$-optimal Policyを得る。
そこで本研究は,複雑で現実的な問題に対するロバストな平均回帰法の実用性向上に寄与する。
- 参考スコア(独自算出の注目度): 5.566883737764277
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robust reinforcement learning (RL) under the average-reward criterion is crucial for long-term decision making under potential environment mismatches, yet its finite-sample complexity study remains largely unexplored. Existing works offer algorithms with asymptotic guarantees, but the absence of finite-sample analysis hinders its principled understanding and practical deployment, especially in data-limited settings. We close this gap by proposing Robust Halpern Iteration (RHI), the first algorithm with provable finite-sample complexity guarantee. Under standard uncertainty sets -- including contamination sets and $\ell_p$-norm balls -- RHI attains an $\epsilon$-optimal policy with near-optimal sample complexity of $\tilde{\mathcal O}\left(\frac{SA\mathcal H^{2}}{\epsilon^{2}}\right)$, where $S$ and $A$ denote the numbers of states and actions, and $\mathcal H$ is the robust optimal bias span. This result gives the first polynomial sample complexity guarantee for robust average-reward RL. Moreover, our RHI's independence from prior knowledge distinguishes it from many previous average-reward RL studies. Our work thus constitutes a significant advancement in enhancing the practical applicability of robust average-reward methods to complex, real-world problems.
- Abstract(参考訳): 平均回帰基準下でのロバスト強化学習(RL)は、潜在的な環境ミスマッチの下での長期的な意思決定には不可欠である。
既存の研究は漸近的な保証を持つアルゴリズムを提供しているが、有限サンプル解析が欠如しているため、特にデータ制限設定において、その原理的な理解と実践的な展開を妨げている。
証明可能な有限サンプル複雑性を保証する最初のアルゴリズムであるRobust Halpern Iteration (RHI)を提案することで、このギャップを埋める。
標準的な不確実性セット -- 汚染セットと$\ell_p$-normボールを含む -- の下で、RHIは、$\tilde{\mathcal O}\left(\frac{SA\mathcal H^{2}}{\epsilon^{2}}\right)$のほぼ最適サンプル複雑さを持つ$\epsilon$-optimalポリシーを得る。
この結果は、ロバスト平均逆 RL に対する最初の多項式サンプル複雑性を保証する。
さらに、我々のRHIの事前知識からの独立性は、以前の平均回帰RL研究と区別される。
そこで本研究は,複雑で現実的な問題に対するロバストな平均回帰法の実用性向上に寄与する。
関連論文リスト
- Sample Complexity of Distributionally Robust Average-Reward Reinforcement Learning [5.8191965840377735]
ほぼ最適サンプル複雑性を実現するアルゴリズムを2つ提案する。
両アルゴリズムが最適なポリシを推定するために,$widetildeOleft(|mathbfS||mathbfA| t_mathrmmix2varepsilon-2right)のサンプル複雑性が得られることを証明した。
これはDR平均逆強化学習における最初の有限サンプル収束保証である。
論文 参考訳(メタデータ) (2025-05-15T06:42:25Z) - Finite-Sample Analysis of Policy Evaluation for Robust Average Reward Reinforcement Learning [33.71515983281633]
本稿では、ロバストな平均回帰における政策評価のための第1次有限サンプル解析について述べる。
提案手法はマルチレベルモンテカルロ法(MLMC)を用いてベルマン作用素を効率的に推定する。
本手法は,ロバストな政策評価とロバストな平均報酬推定のために,$tildemathcalO(epsilon-2)$のオーダー最適サンプル複雑性を実現する。
論文 参考訳(メタデータ) (2025-02-24T03:55:09Z) - Span-Agnostic Optimal Sample Complexity and Oracle Inequalities for Average-Reward RL [6.996002801232415]
生成モデルを用いてマルコフ決定過程(MDP)において,$varepsilon$-optimal Policyを求める際のサンプル複雑性について検討した。
我々は,知識を必要とせず,最適なスパンベース複雑性に適合するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-02-16T19:10:55Z) - Uncertainty-Aware Reward-Free Exploration with General Function Approximation [69.27868448449755]
本稿では、algと呼ばれる報酬のない強化学習アルゴリズムを提案する。
私たちのアルゴリズムの背後にある重要なアイデアは、環境を探索する上で不確実性を認識した本質的な報酬である。
実験の結果、GFA-RFEは最先端の教師なしRLアルゴリズムよりも優れ、あるいは同等であることがわかった。
論文 参考訳(メタデータ) (2024-06-24T01:37:18Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。
PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文 参考訳(メタデータ) (2021-07-23T19:38:17Z) - High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。
そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。