論文の概要: Global Optimality of Single-Timescale Actor-Critic under Continuous State-Action Space: A Study on Linear Quadratic Regulator
- arxiv url: http://arxiv.org/abs/2505.01041v1
- Date: Fri, 02 May 2025 06:30:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.93487
- Title: Global Optimality of Single-Timescale Actor-Critic under Continuous State-Action Space: A Study on Linear Quadratic Regulator
- Title(参考訳): 連続状態空間における単一時間アクター臨界のグローバル最適性:線形二次レギュレータに関する研究
- Authors: Xuyang Chen, Jingliang Duan, Lin Zhao,
- Abstract要約: 人気の高いシングルタイムアクター・クリニックは,エプシロンのオーダーでエプシロン最適解が得られることを示す。
我々の研究は、理論と実践のギャップをさらに埋める、シングルタイムのアクター批評家のパフォーマンスに関する新たな洞察を提供する。
- 参考スコア(独自算出の注目度): 9.890337460455902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Actor-critic methods have achieved state-of-the-art performance in various challenging tasks. However, theoretical understandings of their performance remain elusive and challenging. Existing studies mostly focus on practically uncommon variants such as double-loop or two-timescale stepsize actor-critic algorithms for simplicity. These results certify local convergence on finite state- or action-space only. We push the boundary to investigate the classic single-sample single-timescale actor-critic on continuous (infinite) state-action space, where we employ the canonical linear quadratic regulator (LQR) problem as a case study. We show that the popular single-timescale actor-critic can attain an epsilon-optimal solution with an order of epsilon to -2 sample complexity for solving LQR on the demanding continuous state-action space. Our work provides new insights into the performance of single-timescale actor-critic, which further bridges the gap between theory and practice.
- Abstract(参考訳): アクタークリティカルな手法は、様々な課題において最先端のパフォーマンスを達成した。
しかし、その業績に関する理論的理解はいまだに解明され、困難なままである。
既存の研究は主に、単純化のために二重ループや2時間スケールのステップサイズ・アクター・クリティカルなアルゴリズムのような、事実上一般的でない変種に焦点を当てている。
これらの結果は有限状態あるいは作用空間のみ上の局所収束を証明している。
連続的な(無限の)状態作用空間上での古典的なシングルサンプル・シングルタイム・アクター・クリティカル(英語版)の検証のために境界を推し進め、ケーススタディとして正準線形二次規制(LQR)問題を用いる。
そこで本研究では, シングルタイムのアクター批評家が, 要求される状態-動作空間上でLQRを解くために, エプシロンから2サンプルの複雑さまでのエプシロン最適解が得られることを示す。
我々の研究は、理論と実践のギャップをさらに埋める、シングルタイムのアクター批評家のパフォーマンスに関する新たな洞察を提供する。
関連論文リスト
- Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - Solving Continuous Control via Q-learning [54.05120662838286]
深いQ-ラーニングの簡単な修正は、アクター批判的手法による問題を大幅に軽減することを示します。
バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、このシンプルな批判のみのアプローチは、最先端の連続アクター批判法の性能と一致する。
論文 参考訳(メタデータ) (2022-10-22T22:55:50Z) - Finite-time analysis of single-timescale actor-critic [8.994243376183658]
アクター批判法は多くの挑戦的なアプリケーションで大きな成功を収めた。
有限時間収束は、最も実践的な単一時間スケールの形ではまだ理解されていない。
より実用的なオンラインシングルタイム・アクター・クリティカル・アルゴリズムを連続状態空間上で検討する。
論文 参考訳(メタデータ) (2022-10-18T15:03:56Z) - Global Convergence of Two-timescale Actor-Critic for Solving Linear
Quadratic Regulator [43.13238243240668]
我々は、$epsilon$-optimal Solutionへのグローバル収束を確立するための新しい分析フレームワークを開発する。
これは、LQRを大域的最適で解くための単一のサンプル2時間スケールACに対する最初の有限時間収束解析である。
論文 参考訳(メタデータ) (2022-08-18T09:57:03Z) - Single-Timescale Actor-Critic Provably Finds Globally Optimal Policy [122.01837436087516]
我々は、強化学習アルゴリズムの最も一般的なファミリーの一つであるアクター批判のグローバル収束とグローバル最適性について研究する。
線形関数近似を用いたシングルタイムスケールアクター批評家の収束率と大域的最適性を確立した。
論文 参考訳(メタデータ) (2020-08-02T14:01:49Z) - Non-asymptotic Convergence Analysis of Two Time-scale (Natural)
Actor-Critic Algorithms [58.57004511121862]
アクタークリティカル(AC)とナチュラルアクタークリティカル(NAC)のアルゴリズムは、最適なポリシーを見つけるために2つの方法で実行されることが多い。
2つの時間スケールACは、$mathcalO(epsilon-2.5log3(epsilon-1))$で、$epsilon$-accurateの定常点に達するために、全体のサンプルの複雑さを必要とすることを示す。
我々は,動的にマルコフサンプリングが変化するため,アクターのバイアス誤差をバウンドする新しい手法を開発した。
論文 参考訳(メタデータ) (2020-05-07T15:42:31Z) - A Finite Time Analysis of Two Time-Scale Actor Critic Methods [87.69128666220016]
我々は,2つの時間スケールのアクター批判的手法に対する非漸近的解析を行う。
本研究では,アクター批判法が一階定常点を見つけることが保証されていることを証明した。
有限時間解析とサンプルの複雑さを2つの時間スケールアクター批判的手法に限定した最初の作品である。
論文 参考訳(メタデータ) (2020-05-04T09:45:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。