論文の概要: On the Stochastic (Variance-Reduced) Proximal Gradient Method for Regularized Expected Reward Optimization
- arxiv url: http://arxiv.org/abs/2401.12508v2
- Date: Mon, 19 Aug 2024 19:18:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 20:30:33.908523
- Title: On the Stochastic (Variance-Reduced) Proximal Gradient Method for Regularized Expected Reward Optimization
- Title(参考訳): 正規化予測逆最適化のための確率的(可変再生)近似勾配法について
- Authors: Ling Liang, Haizhao Yang,
- Abstract要約: 我々は、強化学習(RL)における既存の問題の多くを網羅する非文献設定における正規化期待報酬最適化問題を考える。
特に、標準条件下では、$O(epsilon-4)$サンプルを$epsilon$-stationaryポイントに含めることが示されている。
分析の結果,サンプルの複雑さは,追加条件下では$O(epsilon-4)$から$O(epsilon-3)$に改善できることがわかった。
- 参考スコア(独自算出の注目度): 10.36447258513813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a regularized expected reward optimization problem in the non-oblivious setting that covers many existing problems in reinforcement learning (RL). In order to solve such an optimization problem, we apply and analyze the classical stochastic proximal gradient method. In particular, the method has shown to admit an $O(\epsilon^{-4})$ sample complexity to an $\epsilon$-stationary point, under standard conditions. Since the variance of the classical stochastic gradient estimator is typically large, which slows down the convergence, we also apply an efficient stochastic variance-reduce proximal gradient method with an importance sampling based ProbAbilistic Gradient Estimator (PAGE). Our analysis shows that the sample complexity can be improved from $O(\epsilon^{-4})$ to $O(\epsilon^{-3})$ under additional conditions. Our results on the stochastic (variance-reduced) proximal gradient method match the sample complexity of their most competitive counterparts for discounted Markov decision processes under similar settings. To the best of our knowledge, the proposed methods represent a novel approach in addressing the general regularized reward optimization problem.
- Abstract(参考訳): 我々は、強化学習(RL)における既存の問題の多くをカバーする非公益的な設定において、正規化された期待報酬最適化問題を考察する。
このような最適化問題を解決するために,古典的確率的近位勾配法を適用し,解析する。
特に、標準的な条件下では、この方法は$O(\epsilon^{-4})$サンプルの複雑さを$\epsilon$-定常点に含めることを示した。
古典的確率勾配推定器の分散は典型的に大きく、収束を遅くするので、重要サンプリングに基づく確率勾配推定器(PAGE)を用いた効率的な確率勾配推定法も適用する。
分析の結果、追加条件下では、サンプルの複雑さは$O(\epsilon^{-4})$から$O(\epsilon^{-3})$に改善できることがわかった。
確率的(分散還元された)近位勾配法の結果は, 類似した条件下でのマルコフ決定過程において, 競合する最も複雑な解法と一致した。
我々の知る限り、提案手法は一般的な正規化報酬最適化問題に対処する新しい手法である。
関連論文リスト
- A Stochastic Quasi-Newton Method for Non-convex Optimization with Non-uniform Smoothness [4.097563258332958]
滑らか性に不均一性が存在する場合の高速準ニュートン法を提案する。
我々のアルゴリズムは、最もよく知られた$mathcalO(epsilon-3)$サンプルの複雑さを達成でき、収束のスピードアップを楽しむことができる。
我々の数値実験により,提案アルゴリズムは最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-03-22T14:40:29Z) - Diffusion Stochastic Optimization for Min-Max Problems [33.73046548872663]
楽観的勾配法はミニマックス最適化問題に対処するのに有用である。
従来のバージョンでは大きなバッチサイズが必要であり,Samevareps-generativeOGOGと呼ばれる新しい定式化を導入,解析する。
論文 参考訳(メタデータ) (2024-01-26T01:16:59Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - Backward error analysis and the qualitative behaviour of stochastic
optimization algorithms: Application to stochastic coordinate descent [1.534667887016089]
一般最適化法の力学を近似した微分方程式のクラスを提案する。
座標降下の場合の修正方程式の安定性について検討する。
論文 参考訳(メタデータ) (2023-09-05T09:39:56Z) - Stochastic Inexact Augmented Lagrangian Method for Nonconvex Expectation
Constrained Optimization [88.0031283949404]
多くの実世界の問題は複雑な非機能的制約を持ち、多くのデータポイントを使用する。
提案手法は,従来最もよく知られた結果で既存手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-19T14:48:54Z) - Convergence of First-Order Methods for Constrained Nonconvex
Optimization with Dependent Data [7.513100214864646]
収束$tildeO(t-1/4)$とMoreautildeO(vareps-4)$がスムーズな非最適化のために最悪の場合の複雑性を示す。
適応的なステップサイズと最適収束度を持つ投影勾配法に基づく従属データに対する最初のオンライン非負行列分解アルゴリズムを得る。
論文 参考訳(メタデータ) (2022-03-29T17:59:10Z) - Adaptive Sampling Quasi-Newton Methods for Zeroth-Order Stochastic
Optimization [1.7513645771137178]
勾配情報のない制約のない最適化問題を考察する。
適応的なサンプリング準ニュートン法を提案し、共通乱数フレームワーク内の有限差を用いてシミュレーション関数の勾配を推定する。
そこで本研究では, 標準試験と内積準ニュートン試験の修正版を開発し, 近似に使用する試料サイズを制御し, 最適解の近傍に大域収束結果を与える。
論文 参考訳(メタデータ) (2021-09-24T21:49:25Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - On Stochastic Moving-Average Estimators for Non-Convex Optimization [105.22760323075008]
本稿では,移動平均(SEMA)問題に基づく広く利用されている推定器のパワーを実証する。
これらすべてのアートな結果に対して、これらのアートな問題に対する結果も提示します。
論文 参考訳(メタデータ) (2021-04-30T08:50:24Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。