Fugu-MT 論文翻訳(概要): Matrix Low-Rank Approximation For Policy Gradient Methods

論文の概要: Matrix Low-Rank Approximation For Policy Gradient Methods

arxiv url: http://arxiv.org/abs/2405.17626v1
Date: Mon, 27 May 2024 19:49:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-29 23:21:23.716755
Title: Matrix Low-Rank Approximation For Policy Gradient Methods
Title（参考訳）: 政策勾配法に対する行列型低ランク近似
Authors: Sergio Rozada, Antonio G. Marques,
Abstract要約: 行動にマップする政策を推定することは、強化学習における中心的な問題である。本稿では,勾配法アルゴリズムのパラメータを効率的に推定する低ランク行列モデルを提案する。
参考スコア（独自算出の注目度）: 10.196333441334895
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Estimating a policy that maps states to actions is a central problem in reinforcement learning. Traditionally, policies are inferred from the so called value functions (VFs), but exact VF computation suffers from the curse of dimensionality. Policy gradient (PG) methods bypass this by learning directly a parametric stochastic policy. Typically, the parameters of the policy are estimated using neural networks (NNs) tuned via stochastic gradient descent. However, finding adequate NN architectures can be challenging, and convergence issues are common as well. In this paper, we put forth low-rank matrix-based models to estimate efficiently the parameters of PG algorithms. We collect the parameters of the stochastic policy into a matrix, and then, we leverage matrix-completion techniques to promote (enforce) low rank. We demonstrate via numerical studies how low-rank matrix-based policy models reduce the computational and sample complexities relative to NN models, while achieving a similar aggregated reward.
Abstract（参考訳）: 国家を行動にマッピングする政策を推定することは、強化学習における中心的な問題である。伝統的に、ポリシーはいわゆる値関数(VF)から推測されるが、正確なVF計算は次元性の呪いに苦しむ。政策勾配(PG)法は、パラメトリック確率ポリシーを直接学習することでこれを回避している。通常、ポリシーのパラメータは確率勾配降下によって調整されたニューラルネットワーク(NN)を用いて推定される。しかし、適切なNNアーキテクチャを見つけることは困難であり、収束問題も一般的である。本稿では,PGアルゴリズムのパラメータを効率的に推定する低ランク行列モデルを提案する。確率的ポリシーのパラメータを行列に集め、行列補完技術を利用して低ランクを推進(強化)する。我々は,低ランク行列ベースの政策モデルがNNモデルと比較して計算量やサンプルの複雑さを減らし,同様の報奨を得られることを示す。

関連論文リスト

Relative Entropy Pathwise Policy Optimization [56.86405621176669]
そこで本研究では,Q値モデルをオンラインデータから純粋にトレーニング可能な,価値段階駆動型オンデマンドアルゴリズムの構築方法について述べる。本稿では,パスワイズポリシー勾配のサンプル効率と,標準的なオンライン学習の単純さと最小限のメモリフットプリントを組み合わせた,効率的なオンライン学習アルゴリズムであるRelative Entropy Pathwise Policy Optimization (REPPO)を提案する。
論文参考訳（メタデータ） (2025-07-15T06:24:07Z)
Reusing Trajectories in Policy Gradients Enables Fast Convergence [59.27926064817273]
政策勾配法 (PG) は効果的な強化学習アルゴリズムの一種である。本稿では,古いトラジェクトリと新しいトラジェクトリを組み合わせたPGアルゴリズムであるRPG(Retrospective Policy Gradient)を提案する。確立された仮定の下では、RPGは文献で最もよく知られたレートである$widetildeO(epsilon-1)$のサンプル複雑性を達成する。
論文参考訳（メタデータ） (2025-06-06T15:42:15Z)
Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。この障壁を克服する斬新でシンプルな推定器を提示する。
論文参考訳（メタデータ） (2025-01-30T22:29:41Z)
Multilinear Tensor Low-Rank Approximation for Policy-Gradient Methods in Reinforcement Learning [27.868175900131313]
強化学習 (Reinforcement Learning, RL) は、与えられた(時間変化のある)状態を取るための行動を推定することを目的としている。本稿では,RLポリシーのパラメータを効率的に推定するために,複数線形写像を仮定する。我々はPARAFAC分解を利用してテンソル低ランクポリシーを設計する。
論文参考訳（メタデータ） (2025-01-08T23:22:08Z)
Model-free Low-Rank Reinforcement Learning via Leveraged Entry-wise Matrix Estimation [48.92318828548911]
政策改善と政策評価の段階を交互に行うモデルフリー学習アルゴリズムであるLoRa-PI(Low-Rank Policy Iteration)を提案する。 LoRa-PIは$widetildeO(S+Aover mathrmpoly (1-gamma)varepsilon2)$サンプルを使用して$varepsilon$-optimal Policyを学習する。
論文参考訳（メタデータ） (2024-10-30T20:22:17Z)
Matrix Low-Rank Trust Region Policy Optimization [10.196333441334895]
強化学習の方法は、ポリシーグラディエントアプローチを使用して、アクションにマップするパラメトリックポリシーを学ぶ。 Trust Region Policy Optimization (TRPO)のようなトラストリージョンアルゴリズムは、ポリシー更新のステップを制約し、モノトニックな改善を保証する。本稿では,TRPOアルゴリズムのパラメータを効率的に推定する手段として,低ランク行列モデルを提案する。
論文参考訳（メタデータ） (2024-05-27T19:46:31Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
Score-Aware Policy-Gradient Methods and Performance Guarantees using Local Lyapunov Conditions: Applications to Product-Form Stochastic Networks and Queueing Systems [1.747623282473278]
本稿では,ネットワーク上の決定過程(MDP)から得られる定常分布のタイプを利用したモデル強化学習(RL)のポリシー段階的手法を提案する。具体的には、政策パラメータによってMDPの定常分布がパラメータ化されている場合、平均回帰推定のための既存の政策手法を改善することができる。
論文参考訳（メタデータ） (2023-12-05T14:44:58Z)
Spectral Entry-wise Matrix Estimation for Low-Rank Reinforcement Learning [53.445068584013896]
低ランク構造を持つ強化学習(RL)における行列推定問題について検討した。低ランク帯では、回収される行列は期待される腕の報酬を指定し、低ランクマルコフ決定プロセス(MDP)では、例えばMDPの遷移カーネルを特徴付ける。簡単なスペクトルベースの行列推定手法は,行列の特異部分空間を効率よく復元し,ほぼ最小の入力誤差を示すことを示す。
論文参考訳（メタデータ） (2023-10-10T17:06:41Z)
Policy Gradient and Actor-Critic Learning in Continuous Time and Space: Theory and Algorithms [1.776746672434207]
連続時間と空間における強化学習のための政策勾配(PG)について検討する。本稿では,RLに対するアクタ批判アルゴリズムの2つのタイプを提案し,同時に値関数とポリシーを学習し,更新する。
論文参考訳（メタデータ） (2021-11-22T14:27:04Z)
Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-01-08T00:43:04Z)
Deep Bayesian Quadrature Policy Optimization [100.81242753620597]
ディープベイズ二次政策勾配 (Deep Bayesian quadrature Policy gradient, DBQPG) は、政策勾配推定のためのベイズ二次政策の高次元一般化である。政策勾配法では,DBQPGがモンテカルロ推定を代用できることを示すとともに,一連の連続制御ベンチマーク上での有効性を示す。
論文参考訳（メタデータ） (2020-06-28T15:44:47Z)
Stochastic Recursive Momentum for Policy Gradient Methods [28.277961340108313]
STOchastic Recursive Momentum for Policy Gradient (Storm-PG) という新しいアルゴリズムを提案する。 Storm-PG は STORM-PG のサンプルバウンドで、ポリシー勾配アルゴリズムの最もよく知られた収束率と一致する。数値実験では、比較ポリシー勾配アルゴリズムよりもアルゴリズムの方が優れていることが示されている。
論文参考訳（メタデータ） (2020-03-09T17:59:03Z)
A Hybrid Stochastic Policy Gradient Algorithm for Reinforcement Learning [32.91450388566405]
近接ハイブリッドポリシー勾配アルゴリズム(ProxHSPGA)の開発両アルゴリズムが最もよく知られた軌跡複雑性を$mathcalOleft(varepsilon-4right)$で実現できることを証明している。我々は、強化学習におけるいくつかのよく知られた例に基づいて、アルゴリズムの性能を評価する。
論文参考訳（メタデータ） (2020-03-01T07:45:51Z)
Efficient Policy Learning from Surrogate-Loss Classification Reductions [65.91730154730905]
本稿では,政策学習におけるサロゲート-ロス分類の重み付けによる推定問題について考察する。適切な仕様の仮定の下では、重み付けされた分類定式化はポリシーパラメーターに対して効率的でないことが示される。本稿では,ポリシーパラメータに対して効率的なモーメントの一般化手法に基づく推定手法を提案する。
論文参考訳（メタデータ） (2020-02-12T18:54:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。