論文の概要: Multilinear Tensor Low-Rank Approximation for Policy-Gradient Methods in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2501.04879v1
- Date: Wed, 08 Jan 2025 23:22:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 13:58:38.654429
- Title: Multilinear Tensor Low-Rank Approximation for Policy-Gradient Methods in Reinforcement Learning
- Title(参考訳): 強化学習におけるポリシグラディエント手法のマルチ線形テンソル低ランク近似
- Authors: Sergio Rozada, Hoi-To Wai, Antonio G. Marques,
- Abstract要約: 強化学習 (Reinforcement Learning, RL) は、与えられた(時間変化のある)状態を取るための行動を推定することを目的としている。
本稿では,RLポリシーのパラメータを効率的に推定するために,複数線形写像を仮定する。
我々はPARAFAC分解を利用してテンソル低ランクポリシーを設計する。
- 参考スコア(独自算出の注目度): 27.868175900131313
- License:
- Abstract: Reinforcement learning (RL) aims to estimate the action to take given a (time-varying) state, with the goal of maximizing a cumulative reward function. Predominantly, there are two families of algorithms to solve RL problems: value-based and policy-based methods, with the latter designed to learn a probabilistic parametric policy from states to actions. Most contemporary approaches implement this policy using a neural network (NN). However, NNs usually face issues related to convergence, architectural suitability, hyper-parameter selection, and underutilization of the redundancies of the state-action representations (e.g. locally similar states). This paper postulates multi-linear mappings to efficiently estimate the parameters of the RL policy. More precisely, we leverage the PARAFAC decomposition to design tensor low-rank policies. The key idea involves collecting the policy parameters into a tensor and leveraging tensor-completion techniques to enforce low rank. We establish theoretical guarantees of the proposed methods for various policy classes and validate their efficacy through numerical experiments. Specifically, we demonstrate that tensor low-rank policy models reduce computational and sample complexities in comparison to NN models while achieving similar rewards.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、累積報酬関数の最大化を目標として、与えられた(時間変化のある)状態を取るための行動を推定することを目的としている。
優先的に、RL問題を解決するアルゴリズムには、価値に基づく方法とポリシーに基づく方法の2つのファミリーがあり、後者は国家から行動への確率的パラメトリックポリシーを学ぶように設計されている。
現代のほとんどのアプローチでは、ニューラルネットワーク(NN)を使用してこのポリシーを実装している。
しかし、NNは通常、収束性、アーキテクチャ適合性、ハイパーパラメータの選択、状態-作用表現(例えば、局所的に類似した状態)の冗長性の未利用に関連する問題に直面している。
本稿では,RLポリシーのパラメータを効率的に推定するために,複数線形写像を仮定する。
より正確には、PARAFAC分解を利用してテンソル低ランクポリシーを設計する。
鍵となる考え方は、ポリシーパラメータをテンソルに集め、テンソル補完技術を利用して低いランクを強制することである。
提案手法の理論的保証を確立し,その有効性を数値実験により検証する。
具体的には、テンソル低ランク政策モデルが、NNモデルと比較して計算量やサンプルの複雑さを低減し、同様の報酬を得られることを示した。
関連論文リスト
- Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。
この障壁を克服する斬新でシンプルな推定器を提示する。
論文 参考訳(メタデータ) (2025-01-30T22:29:41Z) - Matrix Low-Rank Approximation For Policy Gradient Methods [10.196333441334895]
行動にマップする政策を推定することは、強化学習における中心的な問題である。
本稿では,勾配法アルゴリズムのパラメータを効率的に推定する低ランク行列モデルを提案する。
論文 参考訳(メタデータ) (2024-05-27T19:49:08Z) - Matrix Low-Rank Trust Region Policy Optimization [10.196333441334895]
強化学習の方法は、ポリシーグラディエントアプローチを使用して、アクションにマップするパラメトリックポリシーを学ぶ。
Trust Region Policy Optimization (TRPO)のようなトラストリージョンアルゴリズムは、ポリシー更新のステップを制約し、モノトニックな改善を保証する。
本稿では,TRPOアルゴリズムのパラメータを効率的に推定する手段として,低ランク行列モデルを提案する。
論文 参考訳(メタデータ) (2024-05-27T19:46:31Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Score-Aware Policy-Gradient Methods and Performance Guarantees using Local Lyapunov Conditions: Applications to Product-Form Stochastic Networks and Queueing Systems [1.747623282473278]
本稿では,ネットワーク上の決定過程(MDP)から得られる定常分布のタイプを利用したモデル強化学習(RL)のポリシー段階的手法を提案する。
具体的には、政策パラメータによってMDPの定常分布がパラメータ化されている場合、平均回帰推定のための既存の政策手法を改善することができる。
論文 参考訳(メタデータ) (2023-12-05T14:44:58Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Escaping from Zero Gradient: Revisiting Action-Constrained Reinforcement
Learning via Frank-Wolfe Policy Optimization [5.072893872296332]
アクション制約強化学習(RL)は、さまざまな現実世界のアプリケーションで広く使用されているアプローチです。
本稿では,政策パラメータ更新から行動制約を分離する学習アルゴリズムを提案する。
提案アルゴリズムは,様々な制御タスクにおけるベンチマーク手法を有意に上回っていることを示した。
論文 参考訳(メタデータ) (2021-02-22T14:28:03Z) - Efficient Policy Learning from Surrogate-Loss Classification Reductions [65.91730154730905]
本稿では,政策学習におけるサロゲート-ロス分類の重み付けによる推定問題について考察する。
適切な仕様の仮定の下では、重み付けされた分類定式化はポリシーパラメーターに対して効率的でないことが示される。
本稿では,ポリシーパラメータに対して効率的なモーメントの一般化手法に基づく推定手法を提案する。
論文 参考訳(メタデータ) (2020-02-12T18:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。