論文の概要: Neural Proximal/Trust Region Policy Optimization Attains Globally
Optimal Policy
- arxiv url: http://arxiv.org/abs/1906.10306v3
- Date: Mon, 27 Feb 2023 21:48:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-25 04:33:02.378641
- Title: Neural Proximal/Trust Region Policy Optimization Attains Globally
Optimal Policy
- Title(参考訳): 大域的最適政策を実現するニューラル近・トラスト領域政策最適化
- Authors: Boyi Liu, Qi Cai, Zhuoran Yang, Zhaoran Wang
- Abstract要約: オーバーパラメトリゼーションを備えたPPOOの変種が,グローバルな最適ネットワークに収束することを示す。
我々の分析の鍵は、1次元の単調性の概念の下で無限勾配の反復であり、そこでは勾配はネットワークによって瞬く。
- 参考スコア(独自算出の注目度): 119.12515258771302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Proximal policy optimization and trust region policy optimization (PPO and
TRPO) with actor and critic parametrized by neural networks achieve significant
empirical success in deep reinforcement learning. However, due to nonconvexity,
the global convergence of PPO and TRPO remains less understood, which separates
theory from practice. In this paper, we prove that a variant of PPO and TRPO
equipped with overparametrized neural networks converges to the globally
optimal policy at a sublinear rate. The key to our analysis is the global
convergence of infinite-dimensional mirror descent under a notion of one-point
monotonicity, where the gradient and iterate are instantiated by neural
networks. In particular, the desirable representation power and optimization
geometry induced by the overparametrization of such neural networks allow them
to accurately approximate the infinite-dimensional gradient and iterate.
- Abstract(参考訳): ニューラルネットワークによってパラメータ化されたアクターと批評家によるPPOとTRPO(proximal Policy Optimization and Trust Region Policy Optimization)は、深層強化学習において大きな成功を収める。
しかし、非凸性のため、PPO と TRPO のグローバル収束はあまり理解されておらず、これは理論を実践と区別している。
本稿では,過パラメータ化ニューラルネットワークを備えたppoとtrpoの変種が,サブリニアレートでグローバル最適ポリシーに収束することを示す。
我々の分析の鍵は、一点単調性の概念の下で無限次元ミラー降下のグローバル収束であり、勾配とイテレートはニューラルネットワークによってインスタンス化される。
特に、そのようなニューラルネットワークの過剰パラメータ化によって引き起こされる望ましい表現力と最適化幾何は、無限次元の勾配と反復を正確に近似することができる。
関連論文リスト
- Linear Function Approximation as a Computationally Efficient Method to Solve Classical Reinforcement Learning Challenges [0.0]
本稿では,Natural Policy Gradient法によるアクター更新を用いたNatural Actor Criticアルゴリズムの実装について述べる。
我々は,我々のアルゴリズムが複雑なニューラルネットワークアーキテクチャよりもはるかに高速に学習し,同等あるいはそれ以上の結果が得られることを観察する。
論文 参考訳(メタデータ) (2024-05-27T22:51:58Z) - RoPINN: Region Optimized Physics-Informed Neural Networks [66.38369833561039]
物理インフォームドニューラルネットワーク(PINN)は偏微分方程式(PDE)の解法として広く応用されている。
本稿では,地域最適化としての新たな訓練パラダイムを提案し,理論的に検討する。
実践的なトレーニングアルゴリズムであるRerea Optimized PINN(RoPINN)は、この新しいパラダイムからシームレスに派生している。
論文 参考訳(メタデータ) (2024-05-23T09:45:57Z) - Finite-Time Analysis of Entropy-Regularized Neural Natural Actor-Critic
Algorithm [29.978816372127085]
ニューラルネットワーク近似を用いたNatural actor-critic (NAC) の有限時間解析を行った。
ニューラルネットワーク,正規化,最適化技術の役割を特定し,優れた性能を実現する。
論文 参考訳(メタデータ) (2022-06-02T02:13:29Z) - Mean-Field Analysis of Two-Layer Neural Networks: Global Optimality with
Linear Convergence Rates [7.094295642076582]
平均場体制はNTK(lazy training)体制の理論的に魅力的な代替手段である。
平均場状態における連続ノイズ降下により訓練された2層ニューラルネットワークに対する線形収束結果を確立した。
論文 参考訳(メタデータ) (2022-05-19T21:05:40Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Training Sparse Neural Network by Constraining Synaptic Weight on Unit
Lp Sphere [2.429910016019183]
単位 Lp-球面上のシナプス重みを制約することにより、p で空間を柔軟に制御することができる。
このアプローチは、幅広いドメインをカバーするベンチマークデータセットの実験によって検証されます。
論文 参考訳(メタデータ) (2021-03-30T01:02:31Z) - Generalization bound of globally optimal non-convex neural network
training: Transportation map estimation by infinite dimensional Langevin
dynamics [50.83356836818667]
本稿では,ディープラーニングの最適化を一般化誤差と関連づけて解析する理論フレームワークを提案する。
ニューラルネットワーク最適化分析のための平均場理論やニューラル・タンジェント・カーネル理論のような既存のフレームワークは、そのグローバル収束を示すために、ネットワークの無限幅の限界を取る必要がある。
論文 参考訳(メタデータ) (2020-07-11T18:19:50Z) - Optimal Rates for Averaged Stochastic Gradient Descent under Neural
Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。
本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文 参考訳(メタデータ) (2020-06-22T14:31:37Z) - The Hidden Convex Optimization Landscape of Two-Layer ReLU Neural
Networks: an Exact Characterization of the Optimal Solutions [51.60996023961886]
コーン制約のある凸最適化プログラムを解くことにより,グローバルな2層ReLUニューラルネットワークの探索が可能であることを示す。
我々の分析は新しく、全ての最適解を特徴づけ、最近、ニューラルネットワークのトレーニングを凸空間に持ち上げるために使われた双対性に基づく分析を活用できない。
論文 参考訳(メタデータ) (2020-06-10T15:38:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。