論文の概要: Global optimality of softmax policy gradient with single hidden layer
neural networks in the mean-field regime
- arxiv url: http://arxiv.org/abs/2010.11858v1
- Date: Thu, 22 Oct 2020 16:47:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 05:39:04.856361
- Title: Global optimality of softmax policy gradient with single hidden layer
neural networks in the mean-field regime
- Title(参考訳): 単一隠れ層ニューラルネットワークを用いた平均場環境におけるソフトマックス政策勾配のグローバル最適性
- Authors: Andrea Agazzi, Jianfeng Lu
- Abstract要約: 本研究では,無限水平割引マルコフ決定過程におけるソフトマックスポリシと非線形関数近似を用いたポリシ最適化の問題点について検討する。
エントロピー正則化による探索が奨励されるとき、我々は平均場状態におけるトレーニングのダイナミクス、例えば、広い単一の隠蔽層ニューラルネットワークの挙動をモデル化することに集中する。
- 参考スコア(独自算出の注目度): 10.882573368659516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of policy optimization for infinite-horizon discounted
Markov Decision Processes with softmax policy and nonlinear function
approximation trained with policy gradient algorithms. We concentrate on the
training dynamics in the mean-field regime, modeling e.g., the behavior of wide
single hidden layer neural networks, when exploration is encouraged through
entropy regularization. The dynamics of these models is established as a
Wasserstein gradient flow of distributions in parameter space. We further prove
global optimality of the fixed points of this dynamics under mild conditions on
their initialization.
- Abstract(参考訳): 無限ホリゾン割引マルコフ決定過程におけるポリシー最適化の問題点をソフトマックス・ポリシーと非線形関数近似法を用いて検討した。
エントロピー正則化による探索が奨励されるとき、我々は平均場状態におけるトレーニングのダイナミクス、例えば広帯域単一層ニューラルネットワークの挙動をモデル化することに集中する。
これらのモデルのダイナミクスは、パラメータ空間における分布のワッサースタイン勾配流として確立される。
我々はさらに,この力学の不動点の初期化に関する穏やかな条件下での大域的最適性を証明する。
関連論文リスト
- Stabilizing Policy Gradients for Stochastic Differential Equations via
Consistency with Perturbation Process [12.374297377958413]
我々は、ディープニューラルネットワークパラメータ化微分方程式(SDE)の最適化に焦点をあてる。
我々は、SDEが関連する摂動過程と整合するように制約することを提案する。
我々のフレームワークは、SDEを効果的かつ効率的に訓練するためのポリシー勾配法を多目的に選択する。
論文 参考訳(メタデータ) (2024-03-07T02:24:45Z) - Beyond Stationarity: Convergence Analysis of Stochastic Softmax Policy
Gradient Methods [0.46040036610482665]
本稿では、動的プログラミングと動的ポリシー勾配というポリシー勾配の組み合わせを紹介し、パラメータを時間内に後方にトレーニングする。
動的ポリシー勾配トレーニングを使用することで、改善された収束境界に反映される有限時間問題の構造をよりうまく活用できることが判明した。
論文 参考訳(メタデータ) (2023-10-04T09:21:01Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Constrained Reinforcement Learning via Dissipative Saddle Flow Dynamics [5.270497591225775]
制約強化学習(C-RL)において、エージェントは期待される累積報酬を最大化するポリシーを環境から学ぼうとする。
サンプルベース原始双対法に根ざしたいくつかのアルゴリズムが、政策空間においてこの問題を解決するために最近提案されている。
本稿では,制約付きRLに対して,これらの制約に悩まされない新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-03T01:54:55Z) - Neural ODEs as Feedback Policies for Nonlinear Optimal Control [1.8514606155611764]
ニューラルネットワークをパラメータ化した微分方程式として連続時間力学をモデル化するために、ニューラル常微分方程式(ニューラルODE)を用いる。
本稿では,一般非線形最適制御問題の解法としてニューラル・オードとして提案するニューラル・コントロール・ポリシーを提案する。
論文 参考訳(メタデータ) (2022-10-20T13:19:26Z) - Maximum entropy exploration in contextual bandits with neural networks
and energy based models [63.872634680339644]
モデルには2つのクラスがあり、1つはニューラルネットワークを報酬推定器とし、もう1つはエネルギーベースモデルを示す。
両手法は、エネルギーベースモデルが最も優れた性能を持つ、よく知られた標準アルゴリズムより優れていることを示す。
これは、静的および動的設定でよく機能する新しいテクニックを提供し、特に連続的なアクション空間を持つ非線形シナリオに適している。
論文 参考訳(メタデータ) (2022-10-12T15:09:45Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。
この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文 参考訳(メタデータ) (2020-06-19T22:05:19Z) - Dynamical mean-field theory for stochastic gradient descent in Gaussian
mixture classification [25.898873960635534]
高次元景観を分類する単一層ニューラルネットワークにおける勾配降下(SGD)の閉学習ダイナミクスを解析する。
連続次元勾配流に拡張可能なプロトタイププロセスを定義する。
フルバッチ限界では、標準勾配流を回復する。
論文 参考訳(メタデータ) (2020-06-10T22:49:41Z) - Neural Proximal/Trust Region Policy Optimization Attains Globally
Optimal Policy [119.12515258771302]
オーバーパラメトリゼーションを備えたPPOOの変種が,グローバルな最適ネットワークに収束することを示す。
我々の分析の鍵は、1次元の単調性の概念の下で無限勾配の反復であり、そこでは勾配はネットワークによって瞬く。
論文 参考訳(メタデータ) (2019-06-25T03:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。