論文の概要: Finite-Time Analysis of Entropy-Regularized Neural Natural Actor-Critic
Algorithm
- arxiv url: http://arxiv.org/abs/2206.00833v1
- Date: Thu, 2 Jun 2022 02:13:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 13:47:15.806430
- Title: Finite-Time Analysis of Entropy-Regularized Neural Natural Actor-Critic
Algorithm
- Title(参考訳): エントロピー規則化ニューラルアクター臨界アルゴリズムの有限時間解析
- Authors: Semih Cayci, Niao He, R. Srikant
- Abstract要約: ニューラルネットワーク近似を用いたNatural actor-critic (NAC) の有限時間解析を行った。
ニューラルネットワーク,正規化,最適化技術の役割を特定し,優れた性能を実現する。
- 参考スコア(独自算出の注目度): 29.978816372127085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural actor-critic (NAC) and its variants, equipped with the representation
power of neural networks, have demonstrated impressive empirical success in
solving Markov decision problems with large state spaces. In this paper, we
present a finite-time analysis of NAC with neural network approximation, and
identify the roles of neural networks, regularization and optimization
techniques (e.g., gradient clipping and averaging) to achieve provably good
performance in terms of sample complexity, iteration complexity and
overparametrization bounds for the actor and the critic. In particular, we
prove that (i) entropy regularization and averaging ensure stability by
providing sufficient exploration to avoid near-deterministic and strictly
suboptimal policies and (ii) regularization leads to sharp sample complexity
and network width bounds in the regularized MDPs, yielding a favorable
bias-variance tradeoff in policy optimization. In the process, we identify the
importance of uniform approximation power of the actor neural network to
achieve global optimality in policy optimization due to distributional shift.
- Abstract(参考訳): ニューラルネットワークの表現力を備えたナチュラルアクター・クリティック(NAC)とその変種は、大規模な状態空間におけるマルコフ決定問題の解法において、目覚ましい成功を収めた。
本稿では,ニューラルネットワーク近似を用いたNACの有限時間解析を行い,ニューラルネットワークや正規化,最適化技術(勾配クリッピングや平均化など)の役割を同定し,サンプルの複雑さ,イテレーションの複雑さ,過度なパラメータ境界といった点において,優れた性能を実現する。
特に、我々はそれを証明している。
(i)エントロピー正則化及び平均化は、ほぼ決定論的かつ厳密な最適政策を避けるための十分な探索を提供することにより、安定性を確保する。
(II) 規則化は標本の急激な複雑さと正規化MDPのネットワーク幅境界をもたらし、政策最適化において有利なバイアス分散トレードオフをもたらす。
この過程で,分布シフトによる政策最適化におけるグローバル最適性を達成するために,アクターニューラルネットワークの均一近似パワーが重要であることを明らかにする。
関連論文リスト
- On the Global Convergence of Natural Actor-Critic with Two-layer Neural
Network Parametrization [38.32265770020665]
本稿では,ニューラルネットワークを用いた自然なアクター批判アルゴリズムについて検討する。
本研究の目的は,本アルゴリズムの性能特性のより深い理解を実現することにある。
論文 参考訳(メタデータ) (2023-06-18T06:22:04Z) - Neural Characteristic Activation Analysis and Geometric Parameterization for ReLU Networks [2.2713084727838115]
本稿では,個々のニューロンの特徴的活性化境界を調べることによって,ReLUネットワークのトレーニングダイナミクスを解析するための新しいアプローチを提案する。
提案手法は,コンバージェンス最適化におけるニューラルネットワークのパラメータ化と正規化において重要な不安定性を示し,高速収束を阻害し,性能を損なう。
論文 参考訳(メタデータ) (2023-05-25T10:19:13Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - Iterative Surrogate Model Optimization (ISMO): An active learning
algorithm for PDE constrained optimization with deep neural networks [14.380314061763508]
反復代理モデル最適化(ISMO)と呼ばれる新しい能動学習アルゴリズムを提案する。
このアルゴリズムはディープニューラルネットワークに基づいており、その重要な特徴は、ディープニューラルネットワークと基礎となる標準最適化アルゴリズムの間のフィードバックループを通じて、トレーニングデータの反復的な選択である。
論文 参考訳(メタデータ) (2020-08-13T07:31:07Z) - The Hidden Convex Optimization Landscape of Two-Layer ReLU Neural
Networks: an Exact Characterization of the Optimal Solutions [51.60996023961886]
コーン制約のある凸最適化プログラムを解くことにより,グローバルな2層ReLUニューラルネットワークの探索が可能であることを示す。
我々の分析は新しく、全ての最適解を特徴づけ、最近、ニューラルネットワークのトレーニングを凸空間に持ち上げるために使われた双対性に基づく分析を活用できない。
論文 参考訳(メタデータ) (2020-06-10T15:38:30Z) - Stochastic batch size for adaptive regularization in deep network
optimization [63.68104397173262]
ディープラーニングフレームワークにおける機械学習問題に適用可能な適応正規化を取り入れた一階最適化アルゴリズムを提案する。
一般的なベンチマークデータセットに適用した従来のネットワークモデルに基づく画像分類タスクを用いて,提案アルゴリズムの有効性を実証的に実証した。
論文 参考訳(メタデータ) (2020-04-14T07:54:53Z) - Neural Proximal/Trust Region Policy Optimization Attains Globally
Optimal Policy [119.12515258771302]
オーバーパラメトリゼーションを備えたPPOOの変種が,グローバルな最適ネットワークに収束することを示す。
我々の分析の鍵は、1次元の単調性の概念の下で無限勾配の反復であり、そこでは勾配はネットワークによって瞬く。
論文 参考訳(メタデータ) (2019-06-25T03:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。