Fugu-MT 論文翻訳(概要): Accelerating Primal-dual Methods for Regularized Markov Decision Processes

論文の概要: Accelerating Primal-dual Methods for Regularized Markov Decision Processes

arxiv url: http://arxiv.org/abs/2202.10506v1
Date: Mon, 21 Feb 2022 19:38:33 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-23 15:43:27.376336
Title: Accelerating Primal-dual Methods for Regularized Markov Decision Processes
Title（参考訳）: 正則化マルコフ決定過程の高速化
Authors: Haoya Li, Hsiang-fu Yu, Lexing Ying, and Inderjit Dhillon
Abstract要約: エントロピー規則化マルコフ決定過程は強化学習に広く用いられている。標準的な一階法は、厳密な凸性や凹凸性の欠如により、収束が遅い。新しい4次凸化された原始双対の定式化は、大域収束保証と指数収束率を楽しむ。
参考スコア（独自算出の注目度）: 14.76029955314774
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Entropy regularized Markov decision processes have been widely used in reinforcement learning. This paper is concerned with the primal-dual formulation of the entropy regularized problems. Standard first-order methods suffer from slow convergence due to the lack of strict convexity and concavity. To address this issue, we first introduce a new quadratically convexified primal-dual formulation. The natural gradient ascent descent of the new formulation enjoys global convergence guarantee and exponential convergence rate. We also propose a new interpolating metric that further accelerates the convergence significantly. Numerical results are provided to demonstrate the performance of the proposed methods under multiple settings.
Abstract（参考訳）: エントロピー規則化マルコフ決定過程は強化学習に広く用いられている。本稿では,エントロピー正規化問題の原始双対定式化について述べる。標準的な一階法は厳密な凸性や凹凸性の欠如により収束が遅い。この問題に対処するために、まず、新しい二次凸凸化された原始双対公式を導入する。新しい定式化の自然な勾配上昇は、大域収束保証と指数収束率を享受する。また,収束をさらに加速する新たな補間計量を提案する。提案手法の性能を複数の条件下で実証するために, 数値実験を行った。

関連論文リスト

The inexact power augmented Lagrangian method for constrained nonconvex optimization [44.516958213972885]
この研究は、強大な拡張ラグランジアン用語を導入し、拡大項はユークリッドのノルムを権力へと引き上げる。その結果, 長期化に低消費電力を用いると, 残余の減少が遅くなるにもかかわらず, より高速な成長が期待できることがわかった。以上の結果より, 持続時間の短縮には低消費電力が有効であるが, 残留率が低下する傾向が示唆された。
論文参考訳（メタデータ） (2024-10-26T11:31:56Z)
Reduced-Space Iteratively Reweighted Second-Order Methods for Nonconvex Sparse Regularization [11.56128809794923]
本稿では,局所的なプロパティ収束の反復を$ell_p-$で行うような非スパース性プロモート正規化問題について検討する。
論文参考訳（メタデータ） (2024-07-24T12:15:59Z)
Incremental Quasi-Newton Methods with Faster Superlinear Convergence Rates [50.36933471975506]
各成分関数が強く凸であり、リプシッツ連続勾配とヘシアンを持つ有限和最適化問題を考える。最近提案されたインクリメンタル準ニュートン法は、BFGSの更新に基づいて、局所的な超線形収束率を達成する。本稿では、対称ランク1更新をインクリメンタルフレームワークに組み込むことにより、より効率的な準ニュートン法を提案する。
論文参考訳（メタデータ） (2024-02-04T05:54:51Z)
Weakly Convex Regularisers for Inverse Problems: Convergence of Critical Points and Primal-Dual Optimisation [12.455342327482223]
臨界点の観点から収束正則化の一般化された定式化を提案する。これは弱凸正規化器のクラスによって達成されることを示す。この理論を正規化学習に適用し、入力の弱い凸ニューラルネットワークに対する普遍的な近似を証明した。
論文参考訳（メタデータ） (2024-02-01T22:54:45Z)
Almost-sure convergence of iterates and multipliers in stochastic sequential quadratic optimization [21.022322975077653]
等式制約付き連続最適化問題の解法が近年注目されている。収束保証は、ゼロを測定するための勾配の期待値に制限されている。また,SQPアルゴリズムにより生成した予備値,ラグランジュ測度,ステーション測度に対する新たなほぼ収束保証を証明した。
論文参考訳（メタデータ） (2023-08-07T16:03:40Z)
Algorithm for Constrained Markov Decision Process with Linear Convergence [55.41644538483948]
エージェントは、そのコストに対する複数の制約により、期待される累積割引報酬を最大化することを目的としている。エントロピー正規化ポリシーとベイダの二重化という2つの要素を統合した新しい双対アプローチが提案されている。提案手法は(線形速度で)大域的最適値に収束することが示されている。
論文参考訳（メタデータ） (2022-06-03T16:26:38Z)
SCORE: Approximating Curvature Information under Self-Concordant Regularization [0.0]
本稿では,新たな入力を受信するたびに最小化速度を更新する自己調和正規化アルゴリズム(GGN-SCORE)を提案する。提案アルゴリズムはヘッセン行列の2階情報構造を利用して計算オーバーヘッドを削減する。
論文参考訳（メタデータ） (2021-12-14T13:03:04Z)
Faster Algorithm and Sharper Analysis for Constrained Markov Decision Process [56.55075925645864]
制約付き意思決定プロセス (CMDP) の問題点について検討し, エージェントは, 複数の制約を条件として, 期待される累積割引報酬を最大化することを目的とする。新しいユーティリティ・デュアル凸法は、正規化ポリシー、双対正則化、ネステロフの勾配降下双対という3つの要素の新たな統合によって提案される。これは、凸制約を受ける全ての複雑性最適化に対して、非凸CMDP問題が$mathcal O (1/epsilon)$の低い境界に達する最初の実演である。
論文参考訳（メタデータ） (2021-10-20T02:57:21Z)
On the Convergence of Stochastic Extragradient for Bilinear Games with Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文参考訳（メタデータ） (2021-06-30T17:51:36Z)
Acceleration Methods [57.202881673406324]
まず2次最適化問題を用いて加速法を2つ導入する。我々は、ネステロフの精巧な研究から始まる運動量法を詳細に論じる。我々は、ほぼ最適な収束率に達するための一連の簡単な手法である再起動スキームを議論することで結論付ける。
論文参考訳（メタデータ） (2021-01-23T17:58:25Z)
IDEAL: Inexact DEcentralized Accelerated Augmented Lagrangian Method [64.15649345392822]
本稿では,局所関数が滑らかで凸な分散最適化環境下での原始的手法設計のためのフレームワークを提案する。提案手法は,加速ラグランジアン法により誘導されるサブプロブレム列を概ね解いたものである。加速度勾配降下と組み合わせることで,収束速度が最適で,最近導出された下界と一致した新しい原始アルゴリズムが得られる。
論文参考訳（メタデータ） (2020-06-11T18:49:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。