論文の概要: Regret Analysis of Average-Reward Unichain MDPs via an Actor-Critic Approach
- arxiv url: http://arxiv.org/abs/2505.19986v1
- Date: Mon, 26 May 2025 13:43:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.474654
- Title: Regret Analysis of Average-Reward Unichain MDPs via an Actor-Critic Approach
- Title(参考訳): Actor-Critic法による平均逆ユニチェーンMDPのレグレト解析
- Authors: Swetha Ganesh, Vaneet Aggarwal,
- Abstract要約: 無限逆平均逆決定過程における$tildeO(sqrtT)$の順序最適後悔を伴う自然アクター批判を提案する。
NACBはアクターと批評家の両方に関数近似を用いており、大きな状態の潜在的周期性と行動空間への拡張を可能にしている。
- 参考スコア(独自算出の注目度): 33.38582292895673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Actor-Critic methods are widely used for their scalability, yet existing theoretical guarantees for infinite-horizon average-reward Markov Decision Processes (MDPs) often rely on restrictive ergodicity assumptions. We propose NAC-B, a Natural Actor-Critic with Batching, that achieves order-optimal regret of $\tilde{O}(\sqrt{T})$ in infinite-horizon average-reward MDPs under the unichain assumption, which permits both transient states and periodicity. This assumption is among the weakest under which the classic policy gradient theorem remains valid for average-reward settings. NAC-B employs function approximation for both the actor and the critic, enabling scalability to problems with large state and action spaces. The use of batching in our algorithm helps mitigate potential periodicity in the MDP and reduces stochasticity in gradient estimates, and our analysis formalizes these benefits through the introduction of the constants $C_{\text{hit}}$ and $C_{\text{tar}}$, which characterize the rate at which empirical averages over Markovian samples converge to the stationary distribution.
- Abstract(参考訳): アクター・クリティカル法はスケーラビリティに広く用いられているが、無限水平平均逆マルコフ決定過程(MDP)の理論的保証は、しばしば制限的なエルゴディディディティの仮定に依存している。
我々は、一鎖の仮定の下で、無限水平平均逆 MDP において$\tilde{O}(\sqrt{T})$ の順序最適後悔を達成し、過渡状態と周期性の両方を許容する、バッチを伴う自然なアクター・クリティカルであるNAC-Bを提案する。
この仮定は、古典的なポリシー勾配定理が平均回帰設定に対して有効である最も弱い条件の一つである。
NAC-Bはアクターと批評家の両方に関数近似を導入し、大きな状態やアクション空間の問題に対するスケーラビリティを実現する。
我々のアルゴリズムは, MDPの確率周期性を緩和し, 勾配推定における確率性を低減し, その利点を定数 $C_{\text{hit}}$ と $C_{\text{tar}}$ で定式化する。
関連論文リスト
- Finite-Sample Analysis of Policy Evaluation for Robust Average Reward Reinforcement Learning [33.71515983281633]
本稿では、ロバストな平均回帰における政策評価のための第1次有限サンプル解析について述べる。
提案手法はマルチレベルモンテカルロ法(MLMC)を用いてベルマン作用素を効率的に推定する。
本手法は,ロバストな政策評価とロバストな平均報酬推定のために,$tildemathcalO(epsilon-2)$のオーダー最適サンプル複雑性を実現する。
論文 参考訳(メタデータ) (2025-02-24T03:55:09Z) - Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。
この障壁を克服する斬新でシンプルな推定器を提示する。
論文 参考訳(メタデータ) (2025-01-30T22:29:41Z) - Efficient and Sharp Off-Policy Evaluation in Robust Markov Decision Processes [44.974100402600165]
意思決定プロセス(MDP)に対する最良パラメトリックかつ最悪の摂動の評価について検討する。
我々は、元のMDPからの遷移観測を用いて、それらが同一または異なるポリシーの下で生成されるかのどちらかを判断する。
我々の推定器はウォルドの信頼区間を用いた統計的推測も行う。
論文 参考訳(メタデータ) (2024-03-29T18:11:49Z) - Towards Global Optimality for Practical Average Reward Reinforcement Learning without Mixing Time Oracles [83.85151306138007]
Multi-level Actor-Critic (MAC) フレームワークには、MLMC (Multi-level Monte-Carlo) 推定器が組み込まれている。
MACは、平均報酬設定において、既存の最先端ポリシーグラデーションベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-18T16:23:47Z) - On the Global Convergence of Policy Gradient in Average Reward Markov
Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。
我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文 参考訳(メタデータ) (2024-03-11T15:25:03Z) - Off-Policy Evaluation in Markov Decision Processes under Weak
Distributional Overlap [5.0401589279256065]
本稿では,マルコフ決定過程(MDP)における非政治的評価の課題を再検討する。
本稿では,この環境での良好な性能を期待できる2重頑健性(TDR)推定器のクラスを紹介する。
論文 参考訳(メタデータ) (2024-02-13T03:55:56Z) - Beyond Exponentially Fast Mixing in Average-Reward Reinforcement
Learning via Multi-Level Monte Carlo Actor-Critic [61.968469104271676]
本稿では,アクター・アクターとアクター・アクター・アクター・アルゴリズムに埋め込まれた平均報酬に対して,マルチレベルモンテカルロ推定器を用いて混合時間に適応したRL手法を提案する。
不安定な報酬を伴うRL問題において,安定性に要求される技術的条件の緩和効果が,実用上優れた性能に変換されることを実験的に示す。
論文 参考訳(メタデータ) (2023-01-28T04:12:56Z) - Optimal policy evaluation using kernel-based temporal difference methods [78.83926562536791]
カーネルヒルベルト空間を用いて、無限水平割引マルコフ報酬過程の値関数を推定する。
我々は、関連するカーネル演算子の固有値に明示的に依存した誤差の非漸近上界を導出する。
MRP のサブクラスに対する minimax の下位境界を証明する。
論文 参考訳(メタデータ) (2021-09-24T14:48:20Z) - Asymptotically Efficient Off-Policy Evaluation for Tabular Reinforcement
Learning [20.546806161935578]
強化学習における非政治的評価の問題点を考察する。
目標は、ログポリシの実行によって収集されたオフラインデータを使用して、ターゲットポリシの期待される報酬を見積もることである。
平均二乗誤差のオーダーO(H3/n)$の誤差を平均二乗誤差で推定するために,MIS法が有効であることを示す。
論文 参考訳(メタデータ) (2020-01-29T09:56:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。