論文の概要: Finite Time Analysis of Constrained Natural Critic-Actor Algorithm with Improved Sample Complexity
- arxiv url: http://arxiv.org/abs/2510.04189v1
- Date: Sun, 05 Oct 2025 13:02:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.506506
- Title: Finite Time Analysis of Constrained Natural Critic-Actor Algorithm with Improved Sample Complexity
- Title(参考訳): サンプル複雑度を改良した制約付き自然批判アクターアルゴリズムの有限時間解析
- Authors: Prashansa Panda, Shalabh Bhatnagar,
- Abstract要約: 本稿では,長期平均コスト設定のための関数付き自然評論家・アクターアルゴリズムを提案する。
分析によって最適な学習率が確立され,サンプルの複雑さを高めるための修正も提案する。
- 参考スコア(独自算出の注目度): 6.304715653196449
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have increasingly focused on non-asymptotic convergence analyses for actor-critic (AC) algorithms. One such effort introduced a two-timescale critic-actor algorithm for the discounted cost setting using a tabular representation, where the usual roles of the actor and critic are reversed. However, only asymptotic convergence was established there. Subsequently, both asymptotic and non-asymptotic analyses of the critic-actor algorithm with linear function approximation were conducted. In our work, we introduce the first natural critic-actor algorithm with function approximation for the long-run average cost setting and under inequality constraints. We provide the non-asymptotic convergence guarantees for this algorithm. Our analysis establishes optimal learning rates and we also propose a modification to enhance sample complexity. We further show the results of experiments on three different Safety-Gym environments where our algorithm is found to be competitive in comparison with other well known algorithms.
- Abstract(参考訳): 近年,アクター・クリティカル(AC)アルゴリズムの非漸近収束解析に注目が集まっている。
そのような取り組みの1つは、表表現を用いた割引価格設定のための2段階の批評家・俳優アルゴリズムを導入し、アクターと批評家の通常の役割を逆転させた。
しかし、そこでは漸近的な収束のみが確立された。
その後,線形関数近似を用いた批評家・アクターアルゴリズムの漸近的・非漸近的解析を行った。
本研究では,不等式制約下での長期平均コスト設定に対する関数近似を用いた,最初の自然評論家・アクターアルゴリズムを提案する。
このアルゴリズムの非漸近収束保証を提供する。
分析によって最適な学習率が確立され,サンプルの複雑さを高めるための修正も提案する。
さらに、我々のアルゴリズムが他のよく知られたアルゴリズムと比較して競争力のある3つの異なるセーフティ・ガイム環境の実験結果を示す。
関連論文リスト
- Two-Timescale Critic-Actor for Average Reward MDPs with Function Approximation [6.304715653196449]
本稿では,長期平均報酬設定における関数近似を用いた最初の2段階の批評家・アクターアルゴリズムを提案する。
また、そのようなスキームに対する収束解析と同様に、最初の有限時間非漸近アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-02T12:48:49Z) - Near-Optimal Non-Convex Stochastic Optimization under Generalized
Smoothness [21.865728815935665]
2つの最近の研究は、$O(epsilon-3)$サンプル複雑性を確立し、$O(epsilon)$-定常点を得る。
しかし、どちらも$mathrmploy(epsilon-1)$という大きなバッチサイズを必要とする。
本研究では,STORMアルゴリズムの単純な変種を再検討することにより,従来の2つの問題を同時に解決する。
論文 参考訳(メタデータ) (2023-02-13T00:22:28Z) - First-Order Algorithms for Nonlinear Generalized Nash Equilibrium
Problems [88.58409977434269]
非線形一般化ナッシュ均衡問題(NGNEP)における平衡計算の問題を考える。
我々の貢献は、2次ペナルティ法と拡張ラグランジアン法に基づく2つの単純な一階アルゴリズムフレームワークを提供することである。
これらのアルゴリズムに対する漸近的理論的保証を提供する。
論文 参考訳(メタデータ) (2022-04-07T00:11:05Z) - Amortized Implicit Differentiation for Stochastic Bilevel Optimization [53.12363770169761]
決定論的条件と決定論的条件の両方において、二段階最適化問題を解決するアルゴリズムのクラスについて検討する。
厳密な勾配の推定を補正するために、ウォームスタート戦略を利用する。
このフレームワークを用いることで、これらのアルゴリズムは勾配の偏りのない推定値にアクセス可能な手法の計算複雑性と一致することを示す。
論文 参考訳(メタデータ) (2021-11-29T15:10:09Z) - ROOT-SGD: Sharp Nonasymptotics and Near-Optimal Asymptotics in a Single Algorithm [71.13558000599839]
第一次アルゴリズムを用いて,厳密な凸と滑らかな非制約最適化問題の解法について検討する。
我々は,過去の勾配を平均化し,実装が容易な小説「Recursive One-Over-T SGD」を考案した。
有限サンプル, 漸近感覚, 感覚の両面において, 最先端の性能を同時に達成できることを実証する。
論文 参考訳(メタデータ) (2020-08-28T14:46:56Z) - Non-asymptotic Convergence Analysis of Two Time-scale (Natural)
Actor-Critic Algorithms [58.57004511121862]
アクタークリティカル(AC)とナチュラルアクタークリティカル(NAC)のアルゴリズムは、最適なポリシーを見つけるために2つの方法で実行されることが多い。
2つの時間スケールACは、$mathcalO(epsilon-2.5log3(epsilon-1))$で、$epsilon$-accurateの定常点に達するために、全体のサンプルの複雑さを必要とすることを示す。
我々は,動的にマルコフサンプリングが変化するため,アクターのバイアス誤差をバウンドする新しい手法を開発した。
論文 参考訳(メタデータ) (2020-05-07T15:42:31Z) - Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。
我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文 参考訳(メタデータ) (2020-03-16T17:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。