論文の概要: Achieving $ε^{-2}$ Sample Complexity for Single-Loop Actor-Critic under Minimal Assumptions
- arxiv url: http://arxiv.org/abs/2605.13639v1
- Date: Wed, 13 May 2026 15:04:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.123112
- Title: Achieving $ε^{-2}$ Sample Complexity for Single-Loop Actor-Critic under Minimal Assumptions
- Title(参考訳): 最小推定条件下での単ループアクター臨界に対する$ε^{-2}$サンプル複素性を得る
- Authors: Ishaq Hamza, Zaiwei Chen,
- Abstract要約: 我々は、強化学習における非政治アクターのための最終項目収束率を確立する。
我々は、最小限の仮定の下で$$-optimal Policyを見つけるために、最初の$tildemathcalO(-2)$サンプル複雑性を保証する。
- 参考スコア(独自算出の注目度): 4.440305753099883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we establish last-iterate convergence rates for off-policy actor--critic methods in reinforcement learning. In particular, under a single-loop, single-timescale implementation and a broad class of policy updates, including approximate policy iteration and natural policy gradient methods, we prove the first $\tilde{\mathcal{O}}(ε^{-2})$ sample complexity guarantee for finding an $ε$-optimal policy under minimal assumptions, namely, the existence of a policy that induces an irreducible Markov chain. This stands in stark contrast to the existing literature, where an $\tilde{\mathcal{O}}(ε^{-2})$ sample complexity is achieved only through nested-loop updates and/or under strong, algorithm-dependent assumptions on the policies, such as uniform mixing and uniform exploration. Technically, to address the challenges posed by the coupled update equations arising from the single-loop implementation, as well as the potentially unbounded iterates induced by off-policy learning, our analysis is based on a coupled Lyapunov drift framework. Specifically, we establish a geometric convergence rate for the actor and an $\tilde{\mathcal{O}}(1/T)$ convergence rate for the critic, and combine the two Lyapunov drift inequalities through a cross-domination property. We believe this analytical framework is of independent interest and may be applicable to other coupled iterative algorithms with unbounded
- Abstract(参考訳): 本稿では,助力学習における非政治アクター-批判的手法の最終的な収束率を確立する。
特に、単一ループ、単一時間スケールの実装と、近似ポリシー反復法や自然ポリシー勾配法を含む幅広いポリシー更新の下で、最小の仮定の下でε$最適化ポリシーを見つけるための最初の$\tilde{\mathcal{O}}(ε^{-2})$サンプル複雑性保証、すなわち、既約マルコフ連鎖を誘導するポリシーの存在を証明します。
これは既存の文献とは対照的であり、$\tilde{\mathcal{O}}(ε^{-2})$サンプルの複雑さはネストループ更新や、均一混合や一様探索のようなポリシーに対するアルゴリズムに依存した強い仮定によってのみ達成される。
技術的には、単一ループの実装から生じる更新方程式と、非政治学習によって引き起こされる潜在的に無拘束な反復によって引き起こされる問題に対処するために、我々はリアプノフドリフトフレームワークを基礎として分析を行っている。
具体的には、アクターに対する幾何収束率と批評家に対する$\tilde{\mathcal{O}}(1/T)$収束率を確立し、2つのリアプノフドリフト不等式を相互支配特性で組み合わせる。
我々は、この分析フレームワークは独立した関心事であり、非有界な他の結合反復アルゴリズムに適用できると考えている。
関連論文リスト
- Optimal Sample Complexity for Single Time-Scale Actor-Critic with Momentum [62.691095807959215]
我々は,シングルタイムスケールアクター・クリティック(AC)アルゴリズムを用いて,$O(-2)$の最適なグローバルポリシを得るための最適なサンプル複雑性を確立する。
これらのメカニズムは、既存のディープラーニングアーキテクチャと互換性があり、実用的な適用性を損なうことなく、小さな修正しか必要としない。
論文 参考訳(メタデータ) (2026-02-02T00:35:42Z) - A Variance-Reduced Cubic-Regularized Newton for Policy Optimization [6.52142708235708]
既存の2階法は、しばしば、重要サンプリングに関する最適でない仮定や非現実的な仮定に悩まされる。
これらの制約を克服するため、分散規則化ニュートン還元推定器であるVR-CR-PNを提案する。
さらなる貢献として、期待された戻り関数に対する新しい水平線を導入し、アルゴリズムが一様サンプルの複雑さを達成できるようにする。
論文 参考訳(メタデータ) (2025-07-14T10:04:02Z) - Convergence and Sample Complexity of First-Order Methods for Agnostic Reinforcement Learning [66.4260157478436]
政策学習における強化学習について検討する。
目的は、特定の種類の利害関係において最高の政策と競争力のある政策を見つけることである。
論文 参考訳(メタデータ) (2025-07-06T14:40:05Z) - Towards a Sharp Analysis of Offline Policy Learning for $f$-Divergence-Regularized Contextual Bandits [49.96531901205305]
我々は$f$-divergence-regularized offline policy learningを分析する。
逆Kullback-Leibler (KL) の発散に対して、単極集中性の下での最初の$tildeO(epsilon-1)$サンプル複雑性を与える。
これらの結果は,$f$-divergence-regularized policy learningの包括的理解に向けて大きな一歩を踏み出したものと考えられる。
論文 参考訳(メタデータ) (2025-02-09T22:14:45Z) - On the Convergence of Single-Timescale Actor-Critic [49.19842488693726]
本研究では,有限状態空間を持つ無限水平割引決定過程(MD)に対して,単時間アクタークリティカル(AC)アルゴリズムのグローバル収束を解析する。
我々は,アクタと批評家の両方のステップサイズが (O(k-Pfrac12) として崩壊し,従来の (O(k-Pfrac12) ) レートから (非最適) の Markov フレームワーク最適化で一般的に使用される (O(k-Pfrac12) ) レートから$k$ になることを示した。
論文 参考訳(メタデータ) (2024-10-11T14:46:29Z) - Sample Complexity of Policy-Based Methods under Off-Policy Sampling and
Linear Function Approximation [8.465228064780748]
政策評価には、オフ政治サンプリングと線形関数近似を用いる。
自然政策勾配(NPG)を含む様々な政策更新規則が政策更新のために検討されている。
我々は、最適なポリシーを見つけるために、合計$mathcalO(epsilon-2)$サンプルの複雑さを初めて確立する。
論文 参考訳(メタデータ) (2022-08-05T15:59:05Z) - Globally Convergent Policy Search over Dynamic Filters for Output
Estimation [64.90951294952094]
我々は,大域的に最適な$textitdynamic$ filterに収束する最初の直接ポリシー探索アルゴリズム凸を導入する。
我々は、情報化が前述の優越性を克服していることを示す。
論文 参考訳(メタデータ) (2022-02-23T18:06:20Z) - Finite-Sample Analysis of Off-Policy Natural Actor-Critic with Linear
Function Approximation [5.543220407902113]
我々は,線形関数近似を用いた非政治的自然なアクター批判アルゴリズムの新たな変種を開発する。
我々は$mathcalO(epsilon-3)$のサンプル複雑性を確立し、そのようなアルゴリズムの既知収束境界を全て上回る。
論文 参考訳(メタデータ) (2021-05-26T13:35:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。