論文の概要: Matrix Low-Rank Trust Region Policy Optimization
- arxiv url: http://arxiv.org/abs/2405.17625v1
- Date: Mon, 27 May 2024 19:46:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 23:21:23.720322
- Title: Matrix Low-Rank Trust Region Policy Optimization
- Title(参考訳): マトリックス低信頼地域政策最適化
- Authors: Sergio Rozada, Antonio G. Marques,
- Abstract要約: 強化学習の方法は、ポリシーグラディエントアプローチを使用して、アクションにマップするパラメトリックポリシーを学ぶ。
Trust Region Policy Optimization (TRPO)のようなトラストリージョンアルゴリズムは、ポリシー更新のステップを制約し、モノトニックな改善を保証する。
本稿では,TRPOアルゴリズムのパラメータを効率的に推定する手段として,低ランク行列モデルを提案する。
- 参考スコア(独自算出の注目度): 10.196333441334895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most methods in reinforcement learning use a Policy Gradient (PG) approach to learn a parametric stochastic policy that maps states to actions. The standard approach is to implement such a mapping via a neural network (NN) whose parameters are optimized using stochastic gradient descent. However, PG methods are prone to large policy updates that can render learning inefficient. Trust region algorithms, like Trust Region Policy Optimization (TRPO), constrain the policy update step, ensuring monotonic improvements. This paper introduces low-rank matrix-based models as an efficient alternative for estimating the parameters of TRPO algorithms. By gathering the stochastic policy's parameters into a matrix and applying matrix-completion techniques, we promote and enforce low rank. Our numerical studies demonstrate that low-rank matrix-based policy models effectively reduce both computational and sample complexities compared to NN models, while maintaining comparable aggregated rewards.
- Abstract(参考訳): 強化学習のほとんどの方法は、国家を行動にマッピングするパラメトリック確率ポリシーを学ぶためにポリシーグラディエント(PG)アプローチを使用する。
標準的なアプローチは、確率勾配勾配を使ってパラメータを最適化したニューラルネットワーク(NN)を介してそのようなマッピングを実装することである。
しかし、PG手法は、学習を非効率にレンダリングできる大規模なポリシー更新の傾向にある。
Trust Region Policy Optimization (TRPO)のようなトラストリージョンアルゴリズムは、ポリシー更新のステップを制約し、モノトニックな改善を保証する。
本稿では,TRPOアルゴリズムのパラメータを効率的に推定する手段として,低ランク行列モデルを提案する。
確率的ポリシのパラメータを行列に集め、行列補完手法を適用することにより、低位化を促進し、強制する。
本研究は,低ランク行列に基づく政策モデルが,NNモデルと比較して計算量とサンプル量の両方を効果的に削減し,かつ,同等の累積報酬を維持できることを実証するものである。
関連論文リスト
- Model-free Low-Rank Reinforcement Learning via Leveraged Entry-wise Matrix Estimation [48.92318828548911]
政策改善と政策評価の段階を交互に行うモデルフリー学習アルゴリズムであるLoRa-PI(Low-Rank Policy Iteration)を提案する。
LoRa-PIは$widetildeO(S+Aover mathrmpoly (1-gamma)varepsilon2)$サンプルを使用して$varepsilon$-optimal Policyを学習する。
論文 参考訳(メタデータ) (2024-10-30T20:22:17Z) - Matrix Low-Rank Approximation For Policy Gradient Methods [10.196333441334895]
行動にマップする政策を推定することは、強化学習における中心的な問題である。
本稿では,勾配法アルゴリズムのパラメータを効率的に推定する低ランク行列モデルを提案する。
論文 参考訳(メタデータ) (2024-05-27T19:49:08Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Optimistic Policy Optimization is Provably Efficient in Non-stationary
MDPs [45.6318149525364]
非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)の研究
本稿では,$underlinetextp$eriodically $underlinetextr$estarted $underlinetexto$ptimistic $underlinetextp$olicy $underlinetexto$ptimization algorithm (PROPO)を提案する。
論文 参考訳(メタデータ) (2021-10-18T02:33:20Z) - Bregman Gradient Policy Optimization [97.73041344738117]
本稿では,Bregmanの発散と運動量に基づく強化学習のためのBregmanグラデーションポリシーの最適化を設計する。
VR-BGPOは、各イテレーションで1つの軌道のみを必要とする$epsilon$stationaryポイントを見つけるために、$tilde(epsilon-3)$で最高の複雑性に達する。
論文 参考訳(メタデータ) (2021-06-23T01:08:54Z) - Near Optimal Policy Optimization via REPS [33.992374484681704]
emphrelative entropy policy search (reps) は多くのシミュレーションと実世界のロボットドメインでポリシー学習に成功した。
勾配に基づく解法を用いる場合、REPSの性能には保証がない。
最適規則化ポリシーに好適な収束を維持するためのパラメータ更新を計算するために,基礎となる決定プロセスへの表現的アクセスを利用する手法を提案する。
論文 参考訳(メタデータ) (2021-03-17T16:22:59Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Fast Global Convergence of Natural Policy Gradient Methods with Entropy
Regularization [44.24881971917951]
自然政策勾配法(NPG)は、最も広く使われている政策最適化アルゴリズムの一つである。
我々は,ソフトマックスパラメータ化の下で,エントロピー規則化NPG法に対する収束保証を開発する。
この結果から, エントロピー正則化の役割を浮き彫りにした。
論文 参考訳(メタデータ) (2020-07-13T17:58:41Z) - Robust Reinforcement Learning using Least Squares Policy Iteration with
Provable Performance Guarantees [3.8073142980733]
本稿では,ロバストマルコフ決定過程(RMDP)におけるモデルレス強化学習の課題について述べる。
本稿では、まず、ポリシー評価のための多段階オンラインモデルフリー学習アルゴリズムであるRobust Least Squares Policy Evaluationアルゴリズムを提案する。
次に,ロバスト・ラスト・スクエアズ・ポリシー・イテレーション (RLSPI) アルゴリズムを提案し,ロバスト・ラスト・スクエアズ・ポリシーを最適に学習する。
論文 参考訳(メタデータ) (2020-06-20T16:26:50Z) - Efficient Policy Learning from Surrogate-Loss Classification Reductions [65.91730154730905]
本稿では,政策学習におけるサロゲート-ロス分類の重み付けによる推定問題について考察する。
適切な仕様の仮定の下では、重み付けされた分類定式化はポリシーパラメーターに対して効率的でないことが示される。
本稿では,ポリシーパラメータに対して効率的なモーメントの一般化手法に基づく推定手法を提案する。
論文 参考訳(メタデータ) (2020-02-12T18:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。