Fugu-MT 論文翻訳(概要): On the Stochastic (Variance-Reduced) Proximal Gradient Method for Regularized Expected Reward Optimization

論文の概要: On the Stochastic (Variance-Reduced) Proximal Gradient Method for Regularized Expected Reward Optimization

arxiv url: http://arxiv.org/abs/2401.12508v1
Date: Tue, 23 Jan 2024 06:01:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-24 16:43:47.733444
Title: On the Stochastic (Variance-Reduced) Proximal Gradient Method for Regularized Expected Reward Optimization
Title（参考訳）: 正規化予測逆最適化のための確率的(可変再生)近似勾配法について
Authors: Ling Liang and Haizhao Yang
Abstract要約: 我々は、強化学習(RL)における既存の問題の多くを網羅する非文献設定における正規化期待報酬最適化問題を考える。特に、標準条件下では、$O(epsilon-4)$サンプルを$epsilon-stationaryポイントに含めることが示されている。追加条件下では,サンプルの複雑さが$epsilon-4)$から$O(epsilon-3)$に改善できることが示されている。
参考スコア（独自算出の注目度）: 12.244251361123396
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider a regularized expected reward optimization problem in the non-oblivious setting that covers many existing problems in reinforcement learning (RL). In order to solve such an optimization problem, we apply and analyze the classical stochastic proximal gradient method. In particular, the method has shown to admit an $O(\epsilon^{-4})$ sample complexity to an $\epsilon$-stationary point, under standard conditions. Since the variance of the classical stochastic gradient estimator is typically large which slows down the convergence, we also apply an efficient stochastic variance-reduce proximal gradient method with an importance sampling based ProbAbilistic Gradient Estimator (PAGE). To the best of our knowledge, the application of this method represents a novel approach in addressing the general regularized reward optimization problem. Our analysis shows that the sample complexity can be improved from $O(\epsilon^{-4})$ to $O(\epsilon^{-3})$ under additional conditions. Our results on the stochastic (variance-reduced) proximal gradient method match the sample complexity of their most competitive counterparts under similar settings in the RL literature.
Abstract（参考訳）: 我々は、強化学習(RL)における既存の問題の多くをカバーする非公益的な設定において、正規化された期待報酬最適化問題を考える。このような最適化問題を解決するために,古典確率近位勾配法を適用し,解析する。特に、標準的な条件下では、この方法は$O(\epsilon^{-4})$サンプルの複雑さを$\epsilon$-定常点に含めることを示した。古典的確率勾配推定器の分散は典型的には収束を遅くするほど大きいため、重要サンプリングに基づく確率勾配推定器(PAGE)を用いた効率的な確率勾配推定法も適用する。我々の知る限り、この手法の適用は、一般的な正規化報酬最適化問題に対処する新しいアプローチを表している。その結果,追加条件下では,サンプルの複雑さが$o(\epsilon^{-4})$から$o(\epsilon^{-3})$に改善できることがわかった。確率的(分散縮小)近位勾配法の結果は,rl文献における類似した条件下で,最も競争の激しい相手のサンプル複雑性と一致した。

関連論文リスト

Generalized Gradient Norm Clipping & Non-Euclidean $(L_0,L_1)$-Smoothness [51.302674884611335]
本研究は、急勾配と条件勾配のアプローチを組み合わせることでノルムクリッピングを一般化するハイブリッド非ユークリッド最適化手法を提案する。本稿では、ディープラーニングのためのアルゴリズムのインスタンス化について論じ、画像分類と言語モデリングにおけるそれらの特性を実証する。
論文参考訳（メタデータ） (2025-06-02T17:34:29Z)
A Stochastic Quasi-Newton Method for Non-convex Optimization with Non-uniform Smoothness [4.097563258332958]
滑らか性に不均一性が存在する場合の高速準ニュートン法を提案する。我々のアルゴリズムは、最もよく知られた$mathcalO(epsilon-3)$サンプルの複雑さを達成でき、収束のスピードアップを楽しむことができる。我々の数値実験により,提案アルゴリズムは最先端の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2024-03-22T14:40:29Z)
Diffusion Stochastic Optimization for Min-Max Problems [33.73046548872663]
楽観的勾配法はミニマックス最適化問題に対処するのに有用である。従来のバージョンでは大きなバッチサイズが必要であり,Samevareps-generativeOGOGと呼ばれる新しい定式化を導入,解析する。
論文参考訳（メタデータ） (2024-01-26T01:16:59Z)
Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。本稿では,直感的に設計を記述し,設計選択について説明する。本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文参考訳（メタデータ） (2023-10-31T16:15:13Z)
Backward error analysis and the qualitative behaviour of stochastic optimization algorithms: Application to stochastic coordinate descent [1.534667887016089]
一般最適化法の力学を近似した微分方程式のクラスを提案する。座標降下の場合の修正方程式の安定性について検討する。
論文参考訳（メタデータ） (2023-09-05T09:39:56Z)
Stochastic Inexact Augmented Lagrangian Method for Nonconvex Expectation Constrained Optimization [88.0031283949404]
多くの実世界の問題は複雑な非機能的制約を持ち、多くのデータポイントを使用する。提案手法は,従来最もよく知られた結果で既存手法よりも優れた性能を示す。
論文参考訳（メタデータ） (2022-12-19T14:48:54Z)
Convergence of First-Order Methods for Constrained Nonconvex Optimization with Dependent Data [7.513100214864646]
収束$tildeO(t-1/4)$とMoreautildeO(vareps-4)$がスムーズな非最適化のために最悪の場合の複雑性を示す。適応的なステップサイズと最適収束度を持つ投影勾配法に基づく従属データに対する最初のオンライン非負行列分解アルゴリズムを得る。
論文参考訳（メタデータ） (2022-03-29T17:59:10Z)
Adaptive Sampling Quasi-Newton Methods for Zeroth-Order Stochastic Optimization [1.7513645771137178]
勾配情報のない制約のない最適化問題を考察する。適応的なサンプリング準ニュートン法を提案し、共通乱数フレームワーク内の有限差を用いてシミュレーション関数の勾配を推定する。そこで本研究では, 標準試験と内積準ニュートン試験の修正版を開発し, 近似に使用する試料サイズを制御し, 最適解の近傍に大域収束結果を与える。
論文参考訳（メタデータ） (2021-09-24T21:49:25Z)
Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文参考訳（メタデータ） (2021-07-02T16:21:52Z)
Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文参考訳（メタデータ） (2020-12-21T17:29:58Z)
Convergence of adaptive algorithms for weakly convex constrained optimization [59.36386973876765]
モローエンベロープの勾配のノルムに対して$mathcaltilde O(t-1/4)$収束率を証明する。我々の分析では、最小バッチサイズが1ドル、定数が1位と2位のモーメントパラメータが1ドル、そしておそらくスムーズな最適化ドメインで機能する。
論文参考訳（メタデータ） (2020-06-11T17:43:19Z)
Towards Better Understanding of Adaptive Gradient Algorithms in Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文参考訳（メタデータ） (2019-12-26T22:10:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。