論文の概要: Variance-Reduced Policy Gradient Approaches for Infinite Horizon Average Reward Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2404.02108v1
- Date: Tue, 2 Apr 2024 17:08:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 15:30:03.140547
- Title: Variance-Reduced Policy Gradient Approaches for Infinite Horizon Average Reward Markov Decision Processes
- Title(参考訳): 無限水平平均逆マルコフ決定過程に対する可変化政策勾配法
- Authors: Swetha Ganesh, Washim Uddin Mondal, Vaneet Aggarwal,
- Abstract要約: 無限水平平均報酬マルコフ決定過程の文脈におけるパラメータ化を一般化した2つのポリシーグラディエントに基づく手法を提案する。
第一のアプローチはインプリシット・グラディエント・トランスポート (Implicit Gradient Transport) を使い、$tildemathcalO(T3/5)$の注文を確実に後悔する。
第2のアプローチは、ヘッセンの手法をルーツとするもので、$tildemathcalO(sqrtT)$を期待された後悔を保証する。
- 参考スコア(独自算出の注目度): 31.343919501963416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present two Policy Gradient-based methods with general parameterization in the context of infinite horizon average reward Markov Decision Processes. The first approach employs Implicit Gradient Transport for variance reduction, ensuring an expected regret of the order $\tilde{\mathcal{O}}(T^{3/5})$. The second approach, rooted in Hessian-based techniques, ensures an expected regret of the order $\tilde{\mathcal{O}}(\sqrt{T})$. These results significantly improve the state of the art of the problem, which achieves a regret of $\tilde{\mathcal{O}}(T^{3/4})$.
- Abstract(参考訳): 無限水平平均報酬マルコフ決定過程の文脈におけるパラメータ化を一般化した2つのポリシーグラディエントに基づく手法を提案する。
第一のアプローチはインプリシット・グラディエント・トランスポート (Implicit Gradient Transport) を分散還元に用い、$\tilde{\mathcal{O}}(T^{3/5})$を期待された後悔を保証する。
2つ目のアプローチは、ヘッセンの手法をルーツとするもので、$\tilde{\mathcal{O}}(\sqrt{T})$の順序に対する期待された後悔を保証する。
これらの結果は問題の最先端性を著しく改善し、$\tilde{\mathcal{O}}(T^{3/4})$を後悔する。
関連論文リスト
- Methods for Convex $(L_0,L_1)$-Smooth Optimization: Clipping, Acceleration, and Adaptivity [50.25258834153574]
我々は、(強に)凸 $(L0)$-smooth 関数のクラスに焦点を当て、いくつかの既存のメソッドに対する新しい収束保証を導出する。
特に,スムーズなグラディエント・クリッピングを有するグラディエント・ディフレッシュと,ポリアク・ステップサイズを有するグラディエント・ディフレッシュのコンバージェンス・レートの改善を導出した。
論文 参考訳(メタデータ) (2024-09-23T13:11:37Z) - Learning General Parameterized Policies for Infinite Horizon Average Reward Constrained MDPs via Primal-Dual Policy Gradient Algorithm [34.593772931446125]
本稿では, 制約を適切に管理し, グローバルな最適政策の実現に向けて, 後悔の少ない保証を確実にする主元的二元的ポリシー勾配アルゴリズムを提案する。
提案アルゴリズムは, 目的的後悔に対して$tildemathcalO(T4/5) $tildemathcalO(T4/5)$ 制約違反境界を達成する。
論文 参考訳(メタデータ) (2024-02-03T05:35:58Z) - Regret Analysis of Policy Gradient Algorithm for Infinite Horizon
Average Reward Markov Decision Processes [38.879933964474326]
我々は、無限水平平均報酬マルコフ決定過程(MDP)を考える。
政策勾配に基づくアルゴリズムを提案し,その大域収束特性を示す。
提案アルゴリズムが $tildemathcalO(T3/4)$ regret であることを示す。
論文 参考訳(メタデータ) (2023-09-05T03:22:46Z) - Strictly Low Rank Constraint Optimization -- An Asymptotically
$\mathcal{O}(\frac{1}{t^2})$ Method [5.770309971945476]
最適解における空間性を促進するために,テキスト規則化を用いた非テキスト・非滑らかな問題のクラスを提案する。
我々のアルゴリズムは、滑らかな凸問題に対する一階法に対するネステロフの最適収束と全く同じ$Ofrac(t2)$の特異収束を達成することができることを示す。
論文 参考訳(メタデータ) (2023-07-04T16:55:41Z) - Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。
報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。
次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文 参考訳(メタデータ) (2022-12-12T21:37:36Z) - Gradient-Free Methods for Deterministic and Stochastic Nonsmooth
Nonconvex Optimization [94.19177623349947]
非滑らかな非最適化問題は、機械学習とビジネス製造に現れる。
2つのコア課題は、有限収束を保証する効率的な方法の開発を妨げる。
GFMとSGFMの2相版も提案され, 改良された大規模評価結果が得られた。
論文 参考訳(メタデータ) (2022-09-12T06:53:24Z) - Double Thompson Sampling in Finite stochastic Games [10.559241770674724]
有限割引マルコフ決定プロセスの下での探索と利用のトレードオフ問題を考察する。
このような問題を解決するために、二重トンプソンサンプリング強化学習アルゴリズム(DTS)を提案する。
論文 参考訳(メタデータ) (2022-02-21T06:11:51Z) - Fast Margin Maximization via Dual Acceleration [52.62944011696364]
指数関数的尾の損失を持つ線形分類器を訓練するための運動量に基づく手法を提案し,解析する。
この運動量に基づく法は、最大マルジン問題の凸双対、特にこの双対にネステロフ加速度を適用することによって導出される。
論文 参考訳(メタデータ) (2021-07-01T16:36:39Z) - Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文 参考訳(メタデータ) (2021-02-22T18:56:26Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z) - Stochastic gradient-free descents [8.663453034925363]
本稿では,最適化問題の解法として,モーメント付き勾配法と加速勾配を提案する。
本研究では,これらの手法の収束挙動を平均分散フレームワークを用いて解析する。
論文 参考訳(メタデータ) (2019-12-31T13:56:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。