Fugu-MT 論文翻訳(概要): Finite-time analysis of single-timescale actor-critic

論文の概要: Finite-time analysis of single-timescale actor-critic

arxiv url: http://arxiv.org/abs/2210.09921v4
Date: Fri, 26 Jan 2024 08:06:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-29 18:59:09.736979
Title: Finite-time analysis of single-timescale actor-critic
Title（参考訳）: シングルタイムスケールアクター批判の有限時間解析
Authors: Xuyang Chen, Lin Zhao
Abstract要約: アクター批判法は多くの挑戦的なアプリケーションで大きな成功を収めた。有限時間収束は、最も実践的な単一時間スケールの形ではまだ理解されていない。より実用的なオンラインシングルタイム・アクター・クリティカル・アルゴリズムを連続状態空間上で検討する。
参考スコア（独自算出の注目度）: 8.994243376183658
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Actor-critic methods have achieved significant success in many challenging applications. However, its finite-time convergence is still poorly understood in the most practical single-timescale form. Existing works on analyzing single-timescale actor-critic have been limited to i.i.d. sampling or tabular setting for simplicity. We investigate the more practical online single-timescale actor-critic algorithm on continuous state space, where the critic assumes linear function approximation and updates with a single Markovian sample per actor step. Previous analysis has been unable to establish the convergence for such a challenging scenario. We demonstrate that the online single-timescale actor-critic method provably finds an $\epsilon$-approximate stationary point with $\widetilde{\mathcal{O}}(\epsilon^{-2})$ sample complexity under standard assumptions, which can be further improved to $\mathcal{O}(\epsilon^{-2})$ under the i.i.d. sampling. Our novel framework systematically evaluates and controls the error propagation between the actor and critic. It offers a promising approach for analyzing other single-timescale reinforcement learning algorithms as well.
Abstract（参考訳）: アクター批判法は多くの挑戦的なアプリケーションで大きな成功を収めた。しかし、その有限時間収束は最も実用的な単時間スケール形式ではまだ理解されていない。シングル・タイム・スケールの俳優・批評家を分析するための既存の研究は、単純なサンプリングや表の設定に限られている。連続状態空間におけるより実用的なオンライン・シングルタイム・アクタ-クリティックアルゴリズムについて検討し,批判者は線形関数近似を仮定し,アクタステップ毎に単一のマルコフサンプルで更新する。これまでの分析では、このような困難なシナリオの収束を確立することができなかった。オンライン・シングルタイムスケール・アクタ-クリティック法は、標準仮定下でのサンプル複雑性が$\widetilde{\mathcal{o}}(\epsilon^{-2})である$\epsilon$-approximate stationary pointを、i.i.d.サンプリング下でさらに$\mathcal{o}(\epsilon^{-2})$に改善できることを実証する。提案手法は,アクターと批評家間のエラー伝達を体系的に評価し,制御する。他のシングルタイム強化学習アルゴリズムの分析にも有望なアプローチを提供する。

関連論文リスト

Optimal Sample Complexity for Single Time-Scale Actor-Critic with Momentum [62.691095807959215]
我々は,シングルタイムスケールアクター・クリティック(AC)アルゴリズムを用いて,$O(-2)$の最適なグローバルポリシを得るための最適なサンプル複雑性を確立する。これらのメカニズムは、既存のディープラーニングアーキテクチャと互換性があり、実用的な適用性を損なうことなく、小さな修正しか必要としない。
論文参考訳（メタデータ） (2026-02-02T00:35:42Z)
Global Optimality of Single-Timescale Actor-Critic under Continuous State-Action Space: A Study on Linear Quadratic Regulator [9.890337460455902]
人気の高いシングルタイムアクター・クリニックは,エプシロンのオーダーでエプシロン最適解が得られることを示す。我々の研究は、理論と実践のギャップをさらに埋める、シングルタイムのアクター批評家のパフォーマンスに関する新たな洞察を提供する。
論文参考訳（メタデータ） (2025-05-02T06:30:52Z)
Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは違法にコストがかかる LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2025-04-07T18:30:18Z)
Towards a Sharp Analysis of Offline Policy Learning for $f$-Divergence-Regularized Contextual Bandits [49.96531901205305]
我々は$f$-divergence-regularized offline policy learningを分析する。逆Kullback-Leibler (KL) の発散に対して、単極集中性の下での最初の$tildeO(epsilon-1)$サンプル複雑性を与える。これらの結果は,$f$-divergence-regularized policy learningの包括的理解に向けて大きな一歩を踏み出したものと考えられる。
論文参考訳（メタデータ） (2025-02-09T22:14:45Z)
Improved Sample Complexity for Global Convergence of Actor-Critic Algorithms [49.19842488693726]
我々は,O(epsilon-3)$のサンプル複雑性を大幅に改善したアクター・クリティック・アルゴリズムのグローバル収束を確立した。我々の発見は、一定のステップサイズに依存する多くのアルゴリズムに対する理論的支援を提供する。
論文参考訳（メタデータ） (2024-10-11T14:46:29Z)
Non-Asymptotic Analysis for Single-Loop (Natural) Actor-Critic with Compatible Function Approximation [18.77565744533582]
アクタークリティカル (AC) は、強化学習において最適な政策を学ぶための強力な方法である。 AC は $epsilon +varepsilon_textcritic$ 定常点の近傍に収束する。本稿では,ACアルゴリズムとNACアルゴリズムのコンバージェンスを,相反する関数近似を用いて解析する。
論文参考訳（メタデータ） (2024-06-03T20:05:04Z)
Global Convergence of Two-timescale Actor-Critic for Solving Linear Quadratic Regulator [43.13238243240668]
我々は、$epsilon$-optimal Solutionへのグローバル収束を確立するための新しい分析フレームワークを開発する。これは、LQRを大域的最適で解くための単一のサンプル2時間スケールACに対する最初の有限時間収束解析である。
論文参考訳（メタデータ） (2022-08-18T09:57:03Z)
A Small Gain Analysis of Single Timescale Actor Critic [16.092248433189816]
本研究では,比例的なステップサイズを用いたアクター・批評家版と,アクター・ステップ毎の静止分布からの1つのサンプルによる1つの批評家更新について検討する。本研究では,本手法が定常点を見つけるのに有効であることが証明され,結果として得られたサンプルの複雑さがアクター批判手法の精度を向上させることが証明された。
論文参考訳（メタデータ） (2022-03-04T22:20:34Z)
A Deeper Look at Discounting Mismatch in Actor-Critic Algorithms [81.01917016753644]
本稿では,表現学習の観点からアクタ・クリティカルなアルゴリズムの実装における割引ミスマッチについて検討する。理論的には、アクター批判アルゴリズムは通常、アクターと批評家の両方に対して割引される。しかし、専門家は通常、ディスカウントされた批評家を使用しながら、俳優の割引(ガンマt$)を無視する。
論文参考訳（メタデータ） (2020-10-02T15:51:48Z)
Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。本研究の結果は, 同時一次および二重側収束の形で表される。
論文参考訳（メタデータ） (2020-08-23T20:36:49Z)
Non-asymptotic Convergence Analysis of Two Time-scale (Natural) Actor-Critic Algorithms [58.57004511121862]
アクタークリティカル(AC)とナチュラルアクタークリティカル(NAC)のアルゴリズムは、最適なポリシーを見つけるために2つの方法で実行されることが多い。 2つの時間スケールACは、$mathcalO(epsilon-2.5log3(epsilon-1))$で、$epsilon$-accurateの定常点に達するために、全体のサンプルの複雑さを必要とすることを示す。我々は,動的にマルコフサンプリングが変化するため,アクターのバイアス誤差をバウンドする新しい手法を開発した。
論文参考訳（メタデータ） (2020-05-07T15:42:31Z)
A Finite Time Analysis of Two Time-Scale Actor Critic Methods [87.69128666220016]
我々は,2つの時間スケールのアクター批判的手法に対する非漸近的解析を行う。本研究では,アクター批判法が一階定常点を見つけることが保証されていることを証明した。有限時間解析とサンプルの複雑さを2つの時間スケールアクター批判的手法に限定した最初の作品である。
論文参考訳（メタデータ） (2020-05-04T09:45:18Z)
The Simulator: Understanding Adaptive Sampling in the Moderate-Confidence Regime [52.38455827779212]
エミュレータと呼ばれる適応サンプリングを解析するための新しい手法を提案する。適切なログファクタを組み込んだトップk問題の最初のインスタンスベースの下位境界を証明します。我々の新しい分析は、後者の問題に対するこの種の最初のエミュレータであるベストアームとトップkの識別に、シンプルでほぼ最適であることを示した。
論文参考訳（メタデータ） (2017-02-16T23:42:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。