論文の概要: Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms
- arxiv url: http://arxiv.org/abs/2310.19927v1
- Date: Mon, 30 Oct 2023 18:43:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 18:04:03.939284
- Title: Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms
- Title(参考訳): モデルに基づくパラメータ化ポリシー勾配法:理論と実践的アルゴリズム
- Authors: Shenao Zhang, Boyi Liu, Zhaoran Wang, Tuo Zhao
- Abstract要約: Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
- 参考スコア(独自算出の注目度): 88.74308282658133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: ReParameterization (RP) Policy Gradient Methods (PGMs) have been widely
adopted for continuous control tasks in robotics and computer graphics.
However, recent studies have revealed that, when applied to long-term
reinforcement learning problems, model-based RP PGMs may experience chaotic and
non-smooth optimization landscapes with exploding gradient variance, which
leads to slow convergence. This is in contrast to the conventional belief that
reparameterization methods have low gradient estimation variance in problems
such as training deep generative models. To comprehend this phenomenon, we
conduct a theoretical examination of model-based RP PGMs and search for
solutions to the optimization difficulties. Specifically, we analyze the
convergence of the model-based RP PGMs and pinpoint the smoothness of function
approximators as a major factor that affects the quality of gradient
estimation. Based on our analysis, we propose a spectral normalization method
to mitigate the exploding variance issue caused by long model unrolls. Our
experimental results demonstrate that proper normalization significantly
reduces the gradient variance of model-based RP PGMs. As a result, the
performance of the proposed method is comparable or superior to other gradient
estimators, such as the Likelihood Ratio (LR) gradient estimator. Our code is
available at https://github.com/agentification/RP_PGM.
- Abstract(参考訳): ReParameterization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
しかし、近年の研究では、長期強化学習問題に適用すると、モデルベースrp pgmは、勾配分散を爆発させることでカオス的かつ非スムース最適化の景観を経験し、収束が遅くなることが明らかになっている。
これは、再パラメータ化法が深層生成モデルの訓練のような問題において低い勾配推定のばらつきを持つという従来の考え方とは対照的である。
この現象を理解するため,モデルベースRP PGMの理論的検討を行い,最適化困難に対する解を求める。
具体的には、モデルに基づくRP PGMの収束を解析し、関数近似器の滑らかさを勾配推定の品質に影響を与える主要な要因として挙げる。
そこで本研究では, 長期モデルアンロールによる爆発分散問題を緩和するためのスペクトル正規化法を提案する。
実験の結果,適切な正規化はモデルベースrp pgmの勾配分散を著しく減少させることがわかった。
その結果, 提案手法の性能は, Likelihood Ratio (LR) 勾配推定器のような他の勾配推定器と同等か優れていることがわかった。
私たちのコードはhttps://github.com/agentification/RP_PGMで利用可能です。
関連論文リスト
- Polynomial Chaos Expanded Gaussian Process [2.287415292857564]
複雑で未知のプロセスでは、大域的モデルは最初実験空間全体にわたって生成される。
本研究では,グローバルな実験空間とローカルな実験空間の両方を効果的に表現するモデルの必要性に対処する。
論文 参考訳(メタデータ) (2024-05-02T07:11:05Z) - Differentially Private Optimization with Sparse Gradients [60.853074897282625]
微分プライベート(DP)最適化問題を個人勾配の空間性の下で検討する。
これに基づいて、スパース勾配の凸最適化にほぼ最適な速度で純粋および近似DPアルゴリズムを得る。
論文 参考訳(メタデータ) (2024-04-16T20:01:10Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Adaptive LASSO estimation for functional hidden dynamic geostatistical
model [69.10717733870575]
関数型隠れ統計モデル(f-HD)のためのペナル化極大推定器(PMLE)に基づく新しいモデル選択アルゴリズムを提案する。
このアルゴリズムは反復最適化に基づいており、適応最小限の収縮・セレクタ演算子(GMSOLAS)ペナルティ関数を用いており、これは不給付のf-HD最大線量推定器によって得られる。
論文 参考訳(メタデータ) (2022-08-10T19:17:45Z) - Adaptive Latent Factor Analysis via Generalized Momentum-Incorporated
Particle Swarm Optimization [6.2303427193075755]
勾配降下(SGD)アルゴリズムは,高次元および不完全行列上に潜在因子分析(LFA)モデルを構築するための効果的な学習戦略である。
粒子群最適化(PSO)アルゴリズムは、SGDベースのLFAモデルのハイパーパラメータ(学習率と正規化係数、自己適応)を作成するために一般的に用いられる。
本論文は, 各粒子の進化過程に, 早期収束を避けるために, より歴史的情報を取り入れたものである。
論文 参考訳(メタデータ) (2022-08-04T03:15:07Z) - Hierarchical Gaussian Process Models for Regression Discontinuity/Kink
under Sharp and Fuzzy Designs [0.0]
回帰不連続/リンク(RD/RK)を用いた因果推論のための非パラメトリックベイズ推定器を提案する。
これらの推定器は、中間ベイズニューラルネットワーク層を持つ階層型GPモデルに拡張される。
モンテカルロシミュレーションにより、我々の推定器は、精度、カバレッジ、間隔長の点で競合する推定器よりもよく、しばしばよく機能することを示した。
論文 参考訳(メタデータ) (2021-10-03T04:23:56Z) - Mixed Policy Gradient: off-policy reinforcement learning driven jointly
by data and model [32.61834127169759]
強化学習(RL)はシーケンシャルな意思決定において大きな可能性を秘めている。
メインストリームのRLアルゴリズムはデータ駆動であり、通常、モデル駆動の手法に比べて性能は向上するが、収束は遅くなる。
本稿では,政策勾配(PG)における経験的データと遷移モデルを融合したMPGアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-23T06:05:17Z) - Unbiased Gradient Estimation for Distributionally Robust Learning [2.1777837784979277]
分散的に堅牢な学習(DRL)に基づく新しいアプローチを検討し、内部問題に勾配降下を適用します。
本アルゴリズムはマルチレベルモンテカルロランダム化により勾配勾配を効率的に推定する。
論文 参考訳(メタデータ) (2020-12-22T21:35:03Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。