論文の概要: Riemannian Proximal Policy Optimization
- arxiv url: http://arxiv.org/abs/2005.09195v1
- Date: Tue, 19 May 2020 03:37:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 13:23:03.442430
- Title: Riemannian Proximal Policy Optimization
- Title(参考訳): リーマン近似政策最適化
- Authors: Shijun Wang, Baocheng Zhu, Chen Li, Mingzhe Wu, James Zhang, Wei Chu,
Yuan Qi
- Abstract要約: 我々は、マルコフ決定過程(MDP)問題を解決するために、収束が保証された一般近似最適化アルゴリズムを用いる。
MDP問題における政策モデルを定式化するために、不定混合モデル(GM)として定式化する。
- 参考スコア(独自算出の注目度): 15.532281292327031
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, We propose a general Riemannian proximal optimization
algorithm with guaranteed convergence to solve Markov decision process (MDP)
problems. To model policy functions in MDP, we employ Gaussian mixture model
(GMM) and formulate it as a nonconvex optimization problem in the Riemannian
space of positive semidefinite matrices. For two given policy functions, we
also provide its lower bound on policy improvement by using bounds derived from
the Wasserstein distance of GMMs. Preliminary experiments show the efficacy of
our proposed Riemannian proximal policy optimization algorithm.
- Abstract(参考訳): 本稿では,マルコフ決定過程(MDP)問題を解決するために,収束性を保証する一般リーマン近似最適化アルゴリズムを提案する。
MDPにおけるポリシー関数をモデル化するために、ガウス混合モデル(GMM)を用い、正半定値行列のリーマン空間における非凸最適化問題として定式化する。
2つの政策関数に対して,gmms のwasserstein距離から導出される境界を用いて,政策改善に関する下限を提供する。
予備実験は,提案したリーマン近似ポリシ最適化アルゴリズムの有効性を示す。
関連論文リスト
- Convergence of Policy Mirror Descent Beyond Compatible Function Approximation [66.4260157478436]
我々は,より弱い変動支配を前提とした理論的PMD一般政策クラスを開発し,最良クラス政策への収束を得る。
我々の主観念は、占有度-勾配測度によって誘導される局所ノルムによって誘導される新しい概念を活用する。
論文 参考訳(メタデータ) (2025-02-16T08:05:46Z) - Moreau Envelope ADMM for Decentralized Weakly Convex Optimization [55.2289666758254]
本稿では,分散最適化のための乗算器の交互方向法(ADMM)の近位変種を提案する。
数値実験の結果,本手法は広く用いられている手法よりも高速かつ堅牢であることが示された。
論文 参考訳(メタデータ) (2023-08-31T14:16:30Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Global Algorithms for Mean-Variance Optimization in Markov Decision
Processes [8.601670707452083]
マルコフ決定過程(MDP)における平均と分散の動的最適化は、動的プログラミングの失敗によって引き起こされる長年にわたる課題である。
本研究では, 定常平均値と分散値の組合せを組み合わさって, 無限水平非分散MDPの最適解を求める手法を提案する。
論文 参考訳(メタデータ) (2023-02-27T12:17:43Z) - Riemannian Optimization for Variance Estimation in Linear Mixed Models [0.0]
パラメータ空間の内在的幾何を利用した線形混合モデルにおけるパラメータ推定について、全く新しい見方をとる。
提案手法は,既存手法に比べて分散パラメータ推定精度が高い。
論文 参考訳(メタデータ) (2022-12-18T13:08:45Z) - Non-Convex Optimization with Certificates and Fast Rates Through Kernel
Sums of Squares [68.8204255655161]
非最適化近似問題を考える。
本稿では,最優先計算を保証するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-04-11T09:37:04Z) - Optimistic Policy Optimization is Provably Efficient in Non-stationary MDPs [113.8752163061151]
非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)の研究
線形最適化アンダーライン最適化アルゴリズム(PROPO)を提案する。
PROPOはスライディングウィンドウベースのポリシー評価と周期的リスタートベースのポリシー改善の2つのメカニズムを特徴としている。
論文 参考訳(メタデータ) (2021-10-18T02:33:20Z) - Near Optimal Policy Optimization via REPS [33.992374484681704]
emphrelative entropy policy search (reps) は多くのシミュレーションと実世界のロボットドメインでポリシー学習に成功した。
勾配に基づく解法を用いる場合、REPSの性能には保証がない。
最適規則化ポリシーに好適な収束を維持するためのパラメータ更新を計算するために,基礎となる決定プロセスへの表現的アクセスを利用する手法を提案する。
論文 参考訳(メタデータ) (2021-03-17T16:22:59Z) - Convergence of adaptive algorithms for weakly convex constrained
optimization [59.36386973876765]
モローエンベロープの勾配のノルムに対して$mathcaltilde O(t-1/4)$収束率を証明する。
我々の分析では、最小バッチサイズが1ドル、定数が1位と2位のモーメントパラメータが1ドル、そしておそらくスムーズな最適化ドメインで機能する。
論文 参考訳(メタデータ) (2020-06-11T17:43:19Z) - A Riemannian Primal-dual Algorithm Based on Proximal Operator and its
Application in Metric Learning [3.511851311025242]
一次変数と双対変数を反復的に最適化する原始双対アルゴリズムを提案する。
提案アルゴリズムの収束を証明し,その非漸近収束率を示す。
ファンドマネージメントにおける最適ファンド選択問題に関する予備実験の結果,有効性が確認された。
論文 参考訳(メタデータ) (2020-05-19T03:31:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。