論文の概要: Deep Metric Tensor Regularized Policy Gradient
- arxiv url: http://arxiv.org/abs/2305.11017v1
- Date: Thu, 18 May 2023 14:50:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 14:37:28.552087
- Title: Deep Metric Tensor Regularized Policy Gradient
- Title(参考訳): ディープメトリックテンソル正規化政策勾配
- Authors: Gang Chen and Victoria Huang
- Abstract要約: 政策勾配アルゴリズムは、深層強化学習技術の重要なファミリーである。
我々は,政策勾配に関するヘッセン情報を適切に活用し,制御することで,政策勾配アルゴリズムの性能を著しく向上させることができると信じている。
- 参考スコア(独自算出の注目度): 4.982806898121435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy gradient algorithms are an important family of deep reinforcement
learning techniques. Many past research endeavors focused on using the
first-order policy gradient information to train policy networks. Different
from these works, we conduct research in this paper driven by the believe that
properly utilizing and controlling Hessian information associated with the
policy gradient can noticeably improve the performance of policy gradient
algorithms. One key Hessian information that attracted our attention is the
Hessian trace, which gives the divergence of the policy gradient vector field
in the Euclidean policy parametric space. We set the goal to generalize this
Euclidean policy parametric space into a general Riemmanian manifold by
introducing a metric tensor field $g_ab$ in the parametric space. This is
achieved through newly developed mathematical tools, deep learning algorithms,
and metric tensor deep neural networks (DNNs). Armed with these technical
developments, we propose a new policy gradient algorithm that learns to
minimize the absolute divergence in the Riemannian manifold as an important
regularization mechanism, allowing the Riemannian manifold to smoothen its
policy gradient vector field. The newly developed algorithm is experimentally
studied on several benchmark reinforcement learning problems. Our experiments
clearly show that the new metric tensor regularized algorithm can significantly
outperform its counterpart that does not use our regularization technique.
Additional experimental analysis further suggests that the trained metric
tensor DNN and the corresponding metric tensor $g_{ab}$ can effectively reduce
the absolute divergence towards zero in the Riemannian manifold.
- Abstract(参考訳): ポリシー勾配アルゴリズムは、深層強化学習技術の重要なファミリーである。
過去の多くの研究は、政策ネットワークのトレーニングに一階の政策勾配情報を使うことに重点を置いていた。
これらの研究とは違って,本研究は,政策勾配に関連するヘッセン情報を適切に活用し,制御することで,政策勾配アルゴリズムの性能を顕著に向上できると考えることによる。
我々の注意を引き付けた重要なヘッセン情報の一つが、ユークリッドポリシーパラメトリック空間におけるポリシー勾配ベクトル場の分岐を与えるヘッセントレースである。
我々は、このユークリッドポリシーパラメトリック空間を一般リーマン多様体に一般化するためのゴールを設定し、パラメトリック空間に計量テンソル場$g_ab$を導入する。
これは、新たに開発された数学的ツール、ディープラーニングアルゴリズム、およびメトリックテンソルディープニューラルネットワーク(DNN)によって実現される。
これらの技術的発展を活かし、リーマン多様体の絶対的発散を重要な正規化メカニズムとして最小化することを学び、リーマン多様体がその方針勾配ベクトル場を滑らかにする新しいポリシー勾配アルゴリズムを提案する。
新たに開発したアルゴリズムは,いくつかのベンチマーク強化学習問題に対して実験的に研究されている。
実験の結果,新しい計量テンソル正規化アルゴリズムは,我々の正規化技術を使用しないアルゴリズムよりも著しく優れていることがわかった。
さらなる実験的解析により、訓練された計量テンソル dnn と対応する計量テンソル $g_{ab}$ はリーマン多様体の零への絶対的発散を効果的に低減できることが示唆される。
関連論文リスト
- Optimizing Curvature Learning for Robust Hyperbolic Deep Learning in Computer Vision [3.3964154468907486]
本稿では、一般的な学習アルゴリズムのための改良されたスキーマと、多様体の可変代表半径内への埋め込みを制約する新しい正規化手法を提案する。
提案手法は,より大規模な双曲モデルを実現するとともに,直接分類と階層的計量学習の両タスクにおいて一貫した性能向上を示す。
論文 参考訳(メタデータ) (2024-05-22T20:30:14Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Elementary Analysis of Policy Gradient Methods [3.468656086349638]
本稿では、割引MDPの設定に焦点をあて、前述の政策最適化手法の体系的研究を行う。
1)任意の一定のステップサイズに対する投影された方針勾配の大域的線形収束、2)任意の一定のステップサイズに対するソフトマックス方針勾配の大域的線形収束、3)任意の一定のステップサイズに対するソフトマックス自然政策勾配の大域的線形収束、4)既存の結果よりも広い一定のステップサイズに対するエントロピー正規化ソフトマックス方針勾配の大域的線形収束、5)エントロピー正規化自然政策勾配の厳密な局所的収束率、6)新しい局所的2次収束率。
論文 参考訳(メタデータ) (2024-04-04T11:16:16Z) - Gradient Informed Proximal Policy Optimization [35.22712034665224]
本稿では,PPOアルゴリズムと差別化可能な環境からの解析的勾配を統合した新しいポリシー学習手法を提案する。
アルファ値を適応的に修正することにより、学習中の分析的方針勾配の影響を効果的に管理できる。
提案手法は, 関数最適化, 物理シミュレーション, 交通制御環境など, 様々なシナリオにおいて, ベースラインアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-12-14T07:50:21Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - MDPGT: Momentum-based Decentralized Policy Gradient Tracking [29.22173174168708]
マルチエージェント強化学習のための運動量に基づく分散型ポリシー勾配追跡(MDPGT)を提案する。
MDPGTは、グローバル平均の$N$ローカルパフォーマンス関数の$epsilon-stationaryポイントに収束するために$mathcalO(N-1epsilon-3)$の最良のサンプル複雑性を実現する。
これは、分散モデルレス強化学習における最先端のサンプル複雑さよりも優れています。
論文 参考訳(メタデータ) (2021-12-06T06:55:51Z) - Bregman Gradient Policy Optimization [97.73041344738117]
本稿では,Bregmanの発散と運動量に基づく強化学習のためのBregmanグラデーションポリシーの最適化を設計する。
VR-BGPOは、各イテレーションで1つの軌道のみを必要とする$epsilon$stationaryポイントを見つけるために、$tilde(epsilon-3)$で最高の複雑性に達する。
論文 参考訳(メタデータ) (2021-06-23T01:08:54Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - On the Linear convergence of Natural Policy Gradient Algorithm [5.027714423258537]
強化学習に対する近年の関心は、最適化に触発された手法の研究の動機となった。
このうち自然政策グラディエント(Natural Policy Gradient)は、MDPのミラー降下型である。
改良された有限時間収束境界を示し,このアルゴリズムが幾何収束率を持つことを示す。
論文 参考訳(メタデータ) (2021-05-04T11:26:12Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。
特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。
我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-22T03:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。