Fugu-MT 論文翻訳(概要): Critic-Actor for Average Reward MDPs with Function Approximation: A Finite-Time Analysis

論文の概要: Critic-Actor for Average Reward MDPs with Function Approximation: A Finite-Time Analysis

arxiv url: http://arxiv.org/abs/2402.01371v1
Date: Fri, 2 Feb 2024 12:48:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-05 15:28:06.998446
Title: Critic-Actor for Average Reward MDPs with Function Approximation: A Finite-Time Analysis
Title（参考訳）: 関数近似を用いた平均回帰MDPに対する批判的アクター:有限時間解析
Authors: Prashansa Panda and Shalabh Bhatnagar
Abstract要約: 本稿では,関数近似と長期平均報酬設定を併用した最初の批評家・アクターアルゴリズムを提案する。我々は最適学習率を求め,このアルゴリズムが平均二乗誤差に対して$mathcaltildeO(eps-2.08)$のサンプル複雑性を実現することを証明した。また、3つのベンチマーク設定に関する数値実験の結果を示し、アクター・アクター・アルゴリズムがアクター・アクター・アクターとよく競合することを示した。
参考スコア（独自算出の注目度）: 6.682382456607199
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In recent years, there has been a lot of research work activity focused on carrying out asymptotic and non-asymptotic convergence analyses for two-timescale actor critic algorithms where the actor updates are performed on a timescale that is slower than that of the critic. In a recent work, the critic-actor algorithm has been presented for the infinite horizon discounted cost setting in the look-up table case where the timescales of the actor and the critic are reversed and asymptotic convergence analysis has been presented. In our work, we present the first critic-actor algorithm with function approximation and in the long-run average reward setting and present the first finite-time (non-asymptotic) analysis of such a scheme. We obtain optimal learning rates and prove that our algorithm achieves a sample complexity of $\mathcal{\tilde{O}}(\epsilon^{-2.08})$ for the mean squared error of the critic to be upper bounded by $\epsilon$ which is better than the one obtained for actor-critic in a similar setting. We also show the results of numerical experiments on three benchmark settings and observe that the critic-actor algorithm competes well with the actor-critic algorithm.
Abstract（参考訳）: 近年、俳優の更新が批評家よりも遅い時間スケールで実行される2段階の俳優批判アルゴリズムに対して漸近的かつ非漸近的収束分析を行うことに焦点を当てた研究活動が数多く行われている。近年の研究では、俳優と批評家の時間スケールを逆転させ漸近収束解析を行うルックアップテーブルケースにおいて、無限ホライズンディスカウントコスト設定のために、批評家-アクターアルゴリズムが提示されている。本研究は,関数近似と長期平均報酬設定を用いた最初の批判-実行アルゴリズムを示し,そのようなスキームの最初の有限時間(非漸近的)解析を提案する。我々は最適な学習率を求め,批評家の平均二乗誤差に対して,このアルゴリズムが$\mathcal{\tilde{O}}(\epsilon^{-2.08})$のサンプル複雑性を達成することを証明した。また,3つのベンチマーク設定における数値実験の結果を示し,批判者-実行者アルゴリズムがアクタ-批判的アルゴリズムとよく競合していることを確認する。

関連論文リスト

Improved Sample Complexity for Global Convergence of Actor-Critic Algorithms [49.19842488693726]
我々は,O(epsilon-3)$のサンプル複雑性を大幅に改善したアクター・クリティック・アルゴリズムのグローバル収束を確立した。我々の発見は、一定のステップサイズに依存する多くのアルゴリズムに対する理論的支援を提供する。
論文参考訳（メタデータ） (2024-10-11T14:46:29Z)
Stochastic Zeroth-Order Optimization under Strongly Convexity and Lipschitz Hessian: Minimax Sample Complexity [59.75300530380427]
本稿では,アルゴリズムが検索対象関数の雑音評価にのみアクセス可能な2次スムーズかつ強い凸関数を最適化する問題を考察する。本研究は, ミニマックス単純後悔率について, 一致した上界と下界を発達させることにより, 初めて厳密な評価を行ったものである。
論文参考訳（メタデータ） (2024-06-28T02:56:22Z)
Non-Asymptotic Analysis for Single-Loop (Natural) Actor-Critic with Compatible Function Approximation [18.77565744533582]
アクタークリティカル (AC) は、強化学習において最適な政策を学ぶための強力な方法である。 AC は $epsilon +varepsilon_textcritic$ 定常点の近傍に収束する。本稿では,ACアルゴリズムとNACアルゴリズムのコンバージェンスを,相反する関数近似を用いて解析する。
論文参考訳（メタデータ） (2024-06-03T20:05:04Z)
Finite-Time Analysis of Three-Timescale Constrained Actor-Critic and Constrained Natural Actor-Critic Algorithms [5.945710235932345]
我々は,制約付きマルコフ決定過程の関数近似を用いたアクター評論家と自然なアクター批評家アルゴリズムについて検討する。我々はこれらのアルゴリズムを非i.d(マルコフアン)設定で非漸近解析する。また、3つの異なるセーフティガイム環境の実験結果も示す。
論文参考訳（メタデータ） (2023-10-25T05:04:00Z)
Min-Max Optimization Made Simple: Approximating the Proximal Point Method via Contraction Maps [77.8999425439444]
本稿では,凸/凹凸 min-max 問題に対して,ほぼ最適収束率を許容する一階法を提案する。我々の研究は、近点法の更新規則を精度良く近似できるという事実に基づいている。
論文参考訳（メタデータ） (2023-01-10T12:18:47Z)
A Gradient Smoothed Functional Algorithm with Truncated Cauchy Random Perturbations for Stochastic Optimization [10.820943271350442]
本稿では,雑音の多いコストサンプルに対する期待値であるスムーズな目的関数を最小化するための凸勾配アルゴリズムを提案する。また,本アルゴリズムは局所最小値への収束を示唆し,レートリリアを回避できることも示している。
論文参考訳（メタデータ） (2022-07-30T18:50:36Z)
Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。 DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文参考訳（メタデータ） (2021-02-23T18:56:13Z)
ROOT-SGD: Sharp Nonasymptotics and Near-Optimal Asymptotics in a Single Algorithm [71.13558000599839]
第一次アルゴリズムを用いて,厳密な凸と滑らかな非制約最適化問題の解法について検討する。我々は,過去の勾配を平均化し,実装が容易な小説「Recursive One-Over-T SGD」を考案した。有限サンプル, 漸近感覚, 感覚の両面において, 最先端の性能を同時に達成できることを実証する。
論文参考訳（メタデータ） (2020-08-28T14:46:56Z)
A Two-Timescale Framework for Bilevel Optimization: Complexity Analysis and Application to Actor-Critic [142.1492359556374]
双レベル最適化は、2レベル構造を示す問題のクラスである。このような二段階問題に対処するための2段階近似(TTSA)アルゴリズムを提案する。本稿では,TTSAフレームワークの特殊な事例として,2段階の自然なアクター・クリティカルポリシー最適化アルゴリズムが有用であることを示す。
論文参考訳（メタデータ） (2020-07-10T05:20:02Z)
Non-asymptotic Convergence Analysis of Two Time-scale (Natural) Actor-Critic Algorithms [58.57004511121862]
アクタークリティカル(AC)とナチュラルアクタークリティカル(NAC)のアルゴリズムは、最適なポリシーを見つけるために2つの方法で実行されることが多い。 2つの時間スケールACは、$mathcalO(epsilon-2.5log3(epsilon-1))$で、$epsilon$-accurateの定常点に達するために、全体のサンプルの複雑さを必要とすることを示す。我々は,動的にマルコフサンプリングが変化するため,アクターのバイアス誤差をバウンドする新しい手法を開発した。
論文参考訳（メタデータ） (2020-05-07T15:42:31Z)
A Finite Time Analysis of Two Time-Scale Actor Critic Methods [87.69128666220016]
我々は,2つの時間スケールのアクター批判的手法に対する非漸近的解析を行う。本研究では,アクター批判法が一階定常点を見つけることが保証されていることを証明した。有限時間解析とサンプルの複雑さを2つの時間スケールアクター批判的手法に限定した最初の作品である。
論文参考訳（メタデータ） (2020-05-04T09:45:18Z)
Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文参考訳（メタデータ） (2020-03-16T17:15:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。