論文の概要: On the Sample Complexity of Discounted Reinforcement Learning with Optimized Certainty Equivalents
- arxiv url: http://arxiv.org/abs/2605.21763v1
- Date: Wed, 20 May 2026 21:53:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.002358
- Title: On the Sample Complexity of Discounted Reinforcement Learning with Optimized Certainty Equivalents
- Title(参考訳): 最適化された不確実性等価性をもつ分散強化学習のサンプル複雑性について
- Authors: Oliver Mortensen, Mohammad Sadegh Talebi,
- Abstract要約: 有限割引MDPにおけるリスク感応性強化学習について検討した。
我々は、最適化確実性等価(OCE)と呼ばれる家族またはリスク対策を考える。
- 参考スコア(独自算出の注目度): 2.4145441422386464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study risk-sensitive reinforcement learning in finite discounted MDPs, where a generative model of the MDP is assumed to be available. We consider a family or risk measures called the optimized certainty equivalent (OCE), which includes important risk measures such as entropic risk, CVaR, and mean-variance. Our focus is on the sample complexities of learning the optimal state-action value function (value learning) and an optimal policy (policy learning) under recursive OCE. We provide an exact characterization of utility functions $u$ for which the corresponding OCE defines an objective that is PAC-learnable. We analyze a simple model-based approach and derive PAC sample complexity bounds. We establish that whenever $u$ does not have full domain $\text{dom}(u)\neq \mathbb{R}$, the corresponding problem is not PAC-learnable. Finally, we establish corresponding lower bounds for both value and policy learning, demonstrating tightness in the size $SA$ of state-action space, and for a more restricted class of utilities, we derive lower bounds that makes the dependence on the effective horizon $\frac{1}{1-γ}$ explicit. Specifically, for $\text{CVaR}_τ$ we show that the correct dependence on $τ$ is $\frac{1}{τ^2}$, thus improving by a factor of $\frac{1}τ$ over state-of-the-art although our bound has a suboptimal dependence on $\frac{1}{1-γ}$.
- Abstract(参考訳): 有限割引型MDPにおけるリスク感応性強化学習について検討した。
我々は、エントロピーリスク、CVaR、平均分散といった重要なリスク対策を含む、最適化された確実性等価(OCE)と呼ばれる家族またはリスク対策を考える。
我々の焦点は、再帰的OCEの下で、最適な状態-作用値関数(バリューラーニング)と最適なポリシー(政治ラーニング)を学習する際のサンプルの複雑さである。
実用関数の正確な特徴づけは$u$で、対応するOCEはPAC学習可能な目的を定義する。
モデルに基づく簡単なアプローチを解析し,PACサンプルの複雑性境界を導出する。
u$ が完全領域 $\text{dom}(u)\neq \mathbb{R}$ を持たないとき、対応する問題は PAC-学習可能でない。
最後に、値と政策学習の両方に対する対応する下界を確立し、状態-作用空間の$SA$の厳密性を証明し、より制限されたユーティリティのクラスに対して、有効水平線$\frac{1}{1-γ}$に依存させる下界を導出する。
具体的には、$\text{CVaR}_τ$ に対して、$τ$ に対する正しい依存は $\frac{1}{τ^2}$ であることを示し、したがって、我々の境界は $\frac{1}{1-γ}$ に対する準最適依存を持つが、{1}{1-γ}$ に対する$\frac{1}τ$ の係数によって改善される。
関連論文リスト
- Provably Efficient Sample Complexity for Robust CMDP [7.060086147428817]
安全制約を満たしつつ累積報酬を最大化する学習政策の問題点を考察する。
我々は,強固な制約付きマルコフ決定プロセス(RCMDPs)に焦点を当てる。そこではエージェントは,累積効用がしきい値を超えることを保証しながら報酬を最大化しなければならない。
本稿では,ロバスト制約値反復(RCVI)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-11-10T04:40:37Z) - Near-Optimal Sample Complexity Bounds for Constrained Average-Reward MDPs [6.237808815887583]
制約付き平均回帰MDPにおける$epsilon$-optimal Policyを生成モデルで学習する際のサンプル複雑性について検討した。
本結果は,制約付き平均回帰MDPの複雑性の理解における理論的ギャップを埋めるものである。
論文 参考訳(メタデータ) (2025-09-20T09:19:42Z) - Convergence and Sample Complexity of First-Order Methods for Agnostic Reinforcement Learning [66.4260157478436]
政策学習における強化学習について検討する。
目的は、特定の種類の利害関係において最高の政策と競争力のある政策を見つけることである。
論文 参考訳(メタデータ) (2025-07-06T14:40:05Z) - Provably Sample-Efficient Robust Reinforcement Learning with Average Reward [4.530028899565083]
本稿では,$ell_p$-normと汚染モデルにより特徴付けられる遷移不確実性を持つロバストなマルコフ決定過程(MDP)を設計した新しいアルゴリズムを提案する。
我々のアルゴリズムは、頑健なMDPの事前知識を必要とせずに動作する。
我々の研究は、ロバスト平均報酬RLのサンプル効率の基本的な理論的理解を提供する。
論文 参考訳(メタデータ) (2025-05-18T15:34:45Z) - Towards a Sharp Analysis of Offline Policy Learning for $f$-Divergence-Regularized Contextual Bandits [49.96531901205305]
我々は$f$-divergence-regularized offline policy learningを分析する。
逆Kullback-Leibler (KL) の発散に対して、単極集中性の下での最初の$tildeO(epsilon-1)$サンプル複雑性を与える。
これらの結果は,$f$-divergence-regularized policy learningの包括的理解に向けて大きな一歩を踏み出したものと考えられる。
論文 参考訳(メタデータ) (2025-02-09T22:14:45Z) - A Finite-Sample Analysis of an Actor-Critic Algorithm for Mean-Variance Optimization in a Discounted MDP [1.0923877073891446]
政策評価のために線形関数近似(LFA)を用いた時間差分学習アルゴリズムを解析する。
我々は、(i) を平均二乗の意味で保持し、(ii) を尾の反復平均化の下で高い確率で導く有限サンプル境界を導出する。
これらの結果は、強化学習におけるリスクに敏感なアクター批判法に対する有限サンプル理論的保証を確立する。
論文 参考訳(メタデータ) (2024-06-12T05:49:53Z) - Sample-Efficient Constrained Reinforcement Learning with General Parameterization [35.22742439337603]
エージェントの目標は、無限の地平線上で期待される割引報酬の和を最大化することである。
我々は,世界最適性ギャップを$epsilon$で保証し,制約違反を$epsilon$で保証するPrimal-Dual Accelerated Natural Policy Gradient (PD-ANPG)アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-05-17T08:39:05Z) - Scalable Online Exploration via Coverability [45.66375686120087]
探索は、特に関数近似を必要とする高次元領域において、強化学習において大きな課題である。
従来の探索手法を一般化し,3つの基本デシラタをサポートする新しい目的である$L_Coverageを導入する。
$L_Coverageは、カバー可能性の低いMDPにおけるオンライン(リワードフリーまたは報酬駆動)強化学習のための、最初の計算効率のよいモデルベースおよびモデルフリーのアルゴリズムを可能にする。
論文 参考訳(メタデータ) (2024-03-11T10:14:06Z) - Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - Nearly Optimal Latent State Decoding in Block MDPs [74.51224067640717]
エピソードブロック MDP では、意思決定者は少数の潜在状態から生成される豊富な観測やコンテキストにアクセスすることができる。
まず、固定動作ポリシーに基づいて生成されたデータに基づいて、潜時状態復号関数を推定することに興味がある。
次に、報酬のないフレームワークにおいて、最適に近いポリシーを学習する問題について研究する。
論文 参考訳(メタデータ) (2022-08-17T18:49:53Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。