論文の概要: On the Linear Convergence of Policy Gradient under Hadamard
Parameterization
- arxiv url: http://arxiv.org/abs/2305.19575v1
- Date: Wed, 31 May 2023 05:51:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 18:18:26.926281
- Title: On the Linear Convergence of Policy Gradient under Hadamard
Parameterization
- Title(参考訳): アダマールパラメータ化下における政策勾配の線形収束について
- Authors: Jiacai Liu, Jinchi Chen, and Ke Wei
- Abstract要約: 本研究では,アダマール・パラメトリゼーションの下での決定論的政策勾配の収束について検討する。
すべてのイテレーションに対して$O(frac1k)$レートでエラーが減少することを示す。
全体として、アルゴリズムは局所的な線形収束率よりもゆるやかな定数を持つ全ての反復に対する線形収束率を示す。
- 参考スコア(独自算出の注目度): 6.706168135661958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The convergence of deterministic policy gradient under the Hadamard
parametrization is studied in the tabular setting and the global linear
convergence of the algorithm is established. To this end, we first show that
the error decreases at an $O(\frac{1}{k})$ rate for all the iterations. Based
on this result, we further show that the algorithm has a faster local linear
convergence rate after $k_0$ iterations, where $k_0$ is a constant that only
depends on the MDP problem and the step size. Overall, the algorithm displays a
linear convergence rate for all the iterations with a loose constant than that
for the local linear convergence rate.
- Abstract(参考訳): アダマール・パラメトリゼーションの下での決定論的政策勾配の収束を表裏の設定で研究し、アルゴリズムの大域的線形収束を確立する。
この目的のために、我々はまずすべてのイテレーションに対して、エラーが$o(\frac{1}{k})$レートで減少することを示す。
この結果から,mDP問題とステップサイズにのみ依存する定数である$k_0$を繰り返した後に,アルゴリズムがより高速な局所収束率を持つことを示す。
全体として、アルゴリズムは局所的な線形収束率よりもゆるやかな定数を持つ全ての反復に対する線形収束率を示す。
関連論文リスト
- Learning Infinite-Horizon Average-Reward Linear Mixture MDPs of Bounded Span [16.49229317664822]
本稿では,無限水平平均逆線形混合マルコフ決定過程(MDPs)を学習するための計算抽出可能なアルゴリズムを提案する。
線形混合MDPのアルゴリズムは,$widetildemathcalO(dsqrtmathrmsp(v*)T)$$$T$以上の最小限の後悔上限を実現する。
論文 参考訳(メタデータ) (2024-10-19T05:45:50Z) - A Sample Efficient Alternating Minimization-based Algorithm For Robust Phase Retrieval [56.67706781191521]
そこで本研究では,未知の信号の復元を課題とする,ロバストな位相探索問題を提案する。
提案するオラクルは、単純な勾配ステップと外れ値を用いて、計算学的スペクトル降下を回避している。
論文 参考訳(メタデータ) (2024-09-07T06:37:23Z) - Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。
エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。
既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - Convergence analysis of online algorithms for vector-valued kernel regression [0.42970700836450487]
オンライン学習アルゴリズムを用いて雑音の多いベクトル値データから回帰関数を近似する問題を考察する。
RKHSノルムの期待二乗誤差は$C2 (m+1)-s/(2+s)$でバウンドできることを示し、$m$は現在の処理データの数である。
論文 参考訳(メタデータ) (2023-09-14T15:10:47Z) - Min-Max Optimization Made Simple: Approximating the Proximal Point
Method via Contraction Maps [77.8999425439444]
本稿では,凸/凹凸 min-max 問題に対して,ほぼ最適収束率を許容する一階法を提案する。
我々の研究は、近点法の更新規則を精度良く近似できるという事実に基づいている。
論文 参考訳(メタデータ) (2023-01-10T12:18:47Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - Alternating minimization for generalized rank one matrix sensing: Sharp predictions from a random initialization [5.900674344455754]
ランクランダム行列の特性をdで推定する手法を示す。
鋭い収束は、単一のステップで正確な回復を保証する。
我々の分析は、この問題の他のいくつかの特性も明らかにしている。
論文 参考訳(メタデータ) (2022-07-20T05:31:05Z) - Private Stochastic Non-Convex Optimization: Adaptive Algorithms and
Tighter Generalization Bounds [72.63031036770425]
有界非次元最適化のための差分プライベート(DP)アルゴリズムを提案する。
標準勾配法に対する経験的優位性について,2つの一般的なディープラーニング手法を実証する。
論文 参考訳(メタデータ) (2020-06-24T06:01:24Z) - On the Almost Sure Convergence of Stochastic Gradient Descent in
Non-Convex Problems [75.58134963501094]
本稿では,勾配降下(SGD)の軌跡を解析する。
我々はSGDが厳格なステップサイズポリシーのために1ドルでサドルポイント/マニフォールドを避けることを示す。
論文 参考訳(メタデータ) (2020-06-19T14:11:26Z) - Tight Nonparametric Convergence Rates for Stochastic Gradient Descent
under the Noiseless Linear Model [0.0]
このモデルに基づく最小二乗リスクに対する1パス, 固定段差勾配勾配の収束度を解析した。
特殊な場合として、ランダムなサンプリング点における値のノイズのない観測から単位区間上の実関数を推定するオンラインアルゴリズムを解析する。
論文 参考訳(メタデータ) (2020-06-15T08:25:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。