論文の概要: Riemannian Proximal Policy Optimization
- arxiv url: http://arxiv.org/abs/2005.09195v1
- Date: Tue, 19 May 2020 03:37:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 13:23:03.442430
- Title: Riemannian Proximal Policy Optimization
- Title(参考訳): リーマン近似政策最適化
- Authors: Shijun Wang, Baocheng Zhu, Chen Li, Mingzhe Wu, James Zhang, Wei Chu,
Yuan Qi
- Abstract要約: 我々は、マルコフ決定過程(MDP)問題を解決するために、収束が保証された一般近似最適化アルゴリズムを用いる。
MDP問題における政策モデルを定式化するために、不定混合モデル(GM)として定式化する。
- 参考スコア(独自算出の注目度): 15.532281292327031
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, We propose a general Riemannian proximal optimization
algorithm with guaranteed convergence to solve Markov decision process (MDP)
problems. To model policy functions in MDP, we employ Gaussian mixture model
(GMM) and formulate it as a nonconvex optimization problem in the Riemannian
space of positive semidefinite matrices. For two given policy functions, we
also provide its lower bound on policy improvement by using bounds derived from
the Wasserstein distance of GMMs. Preliminary experiments show the efficacy of
our proposed Riemannian proximal policy optimization algorithm.
- Abstract(参考訳): 本稿では,マルコフ決定過程(MDP)問題を解決するために,収束性を保証する一般リーマン近似最適化アルゴリズムを提案する。
MDPにおけるポリシー関数をモデル化するために、ガウス混合モデル(GMM)を用い、正半定値行列のリーマン空間における非凸最適化問題として定式化する。
2つの政策関数に対して,gmms のwasserstein距離から導出される境界を用いて,政策改善に関する下限を提供する。
予備実験は,提案したリーマン近似ポリシ最適化アルゴリズムの有効性を示す。
関連論文リスト
- Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Moreau Envelope ADMM for Decentralized Weakly Convex Optimization [55.2289666758254]
本稿では,分散最適化のための乗算器の交互方向法(ADMM)の近位変種を提案する。
数値実験の結果,本手法は広く用いられている手法よりも高速かつ堅牢であることが示された。
論文 参考訳(メタデータ) (2023-08-31T14:16:30Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Policy Gradient Algorithms Implicitly Optimize by Continuation [7.351769270728942]
我々は、政策段階的なアルゴリズムの探索は、目の前にある政策の回帰の継続であり、その回帰を最大化するよりも、政策は歴史に依存しているべきだと論じる。
論文 参考訳(メタデータ) (2023-05-11T14:50:20Z) - Global Algorithms for Mean-Variance Optimization in Markov Decision
Processes [8.601670707452083]
マルコフ決定過程(MDP)における平均と分散の動的最適化は、動的プログラミングの失敗によって引き起こされる長年にわたる課題である。
本研究では, 定常平均値と分散値の組合せを組み合わさって, 無限水平非分散MDPの最適解を求める手法を提案する。
論文 参考訳(メタデータ) (2023-02-27T12:17:43Z) - Riemannian Optimization for Variance Estimation in Linear Mixed Models [0.0]
パラメータ空間の内在的幾何を利用した線形混合モデルにおけるパラメータ推定について、全く新しい見方をとる。
提案手法は,既存手法に比べて分散パラメータ推定精度が高い。
論文 参考訳(メタデータ) (2022-12-18T13:08:45Z) - First-Order Algorithms for Min-Max Optimization in Geodesic Metric
Spaces [93.35384756718868]
min-maxアルゴリズムはユークリッド設定で解析されている。
指数関数法 (RCEG) が線形速度で最終収束を補正したことを証明した。
論文 参考訳(メタデータ) (2022-06-04T18:53:44Z) - Non-Convex Optimization with Certificates and Fast Rates Through Kernel
Sums of Squares [68.8204255655161]
非最適化近似問題を考える。
本稿では,最優先計算を保証するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-04-11T09:37:04Z) - Near Optimal Policy Optimization via REPS [33.992374484681704]
emphrelative entropy policy search (reps) は多くのシミュレーションと実世界のロボットドメインでポリシー学習に成功した。
勾配に基づく解法を用いる場合、REPSの性能には保証がない。
最適規則化ポリシーに好適な収束を維持するためのパラメータ更新を計算するために,基礎となる決定プロセスへの表現的アクセスを利用する手法を提案する。
論文 参考訳(メタデータ) (2021-03-17T16:22:59Z) - Convergence of adaptive algorithms for weakly convex constrained
optimization [59.36386973876765]
モローエンベロープの勾配のノルムに対して$mathcaltilde O(t-1/4)$収束率を証明する。
我々の分析では、最小バッチサイズが1ドル、定数が1位と2位のモーメントパラメータが1ドル、そしておそらくスムーズな最適化ドメインで機能する。
論文 参考訳(メタデータ) (2020-06-11T17:43:19Z) - A Riemannian Primal-dual Algorithm Based on Proximal Operator and its
Application in Metric Learning [3.511851311025242]
一次変数と双対変数を反復的に最適化する原始双対アルゴリズムを提案する。
提案アルゴリズムの収束を証明し,その非漸近収束率を示す。
ファンドマネージメントにおける最適ファンド選択問題に関する予備実験の結果,有効性が確認された。
論文 参考訳(メタデータ) (2020-05-19T03:31:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。