論文の概要: Functional Acceleration for Policy Mirror Descent
- arxiv url: http://arxiv.org/abs/2407.16602v1
- Date: Tue, 23 Jul 2024 16:04:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 16:36:00.413172
- Title: Functional Acceleration for Policy Mirror Descent
- Title(参考訳): 政策ミラーの老化のための機能加速
- Authors: Veronica Chelu, Doina Precup,
- Abstract要約: 本稿では,PMDアルゴリズムの一般系に関数加速度を適用した。
機能的経路をとることで、我々のアプローチは政策パラメトリゼーションとは無関係になり、大規模最適化にも適用できる。
- 参考スコア(独自算出の注目度): 42.08953240415424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We apply functional acceleration to the Policy Mirror Descent (PMD) general family of algorithms, which cover a wide range of novel and fundamental methods in Reinforcement Learning (RL). Leveraging duality, we propose a momentum-based PMD update. By taking the functional route, our approach is independent of the policy parametrization and applicable to large-scale optimization, covering previous applications of momentum at the level of policy parameters as a special case. We theoretically analyze several properties of this approach and complement with a numerical ablation study, which serves to illustrate the policy optimization dynamics on the value polytope, relative to different algorithmic design choices in this space. We further characterize numerically several features of the problem setting relevant for functional acceleration, and lastly, we investigate the impact of approximation on their learning mechanics.
- Abstract(参考訳): 本稿では,Reinforcement Learning (RL) における多種多様な新しい基本手法を網羅した,PMD(Policy Mirror Descent) 一般アルゴリズムに関数加速度を適用した。
双対性を利用して運動量に基づくPMD更新を提案する。
機能的経路をとることで、我々のアプローチは政策パラメトリゼーションとは独立して、大規模最適化に適用でき、特に政策パラメータのレベルでの過去の運動量の適用をカバーできる。
この手法のいくつかの特性を理論的に解析し、この空間における異なるアルゴリズム設計の選択と比較して、ポリトープの値に関するポリシー最適化のダイナミクスを説明するのに役立つ数値アブレーション研究を補完する。
さらに,機能的加速に関連する問題設定の特徴を数値的に特徴付けるとともに,近似が学習力学に与える影響について検討する。
関連論文リスト
- Gradient Informed Proximal Policy Optimization [35.22712034665224]
本稿では,PPOアルゴリズムと差別化可能な環境からの解析的勾配を統合した新しいポリシー学習手法を提案する。
アルファ値を適応的に修正することにより、学習中の分析的方針勾配の影響を効果的に管理できる。
提案手法は, 関数最適化, 物理シミュレーション, 交通制御環境など, 様々なシナリオにおいて, ベースラインアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-12-14T07:50:21Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Reinforcement learning based adaptive metaheuristics [5.254093731341154]
本稿では,最先端強化学習アルゴリズムに基づく連続領域メタヒューリスティックスにおけるパラメータ適応のための汎用フレームワークを提案する。
CMA-ES(Covariance Matrix Adaptation Evolution Strategies)とDE(differial Evolution)の2つのアルゴリズムにおけるこのフレームワークの適用性を示す。
論文 参考訳(メタデータ) (2022-06-24T12:01:49Z) - A Parametric Class of Approximate Gradient Updates for Policy
Optimization [47.69337420768319]
我々は、勾配形式とスケーリング関数の限定的な選択の観点から、基礎となる更新を再表現する統一的な視点を開発する。
我々は、収束速度と最終的な結果品質の両方の利点をもたらすことができる方法で、既存のアルゴリズムを一般化する、新しいが、動機のよい更新を得る。
論文 参考訳(メタデータ) (2022-06-17T01:28:38Z) - Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。
特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。
我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-22T03:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。