論文の概要: Efficient Wasserstein Natural Gradients for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2010.05380v4
- Date: Thu, 18 Mar 2021 10:41:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 07:36:04.821121
- Title: Efficient Wasserstein Natural Gradients for Reinforcement Learning
- Title(参考訳): 強化学習のための効率的なwasserstein自然勾配
- Authors: Ted Moskovitz, Michael Arbel, Ferenc Huszar, Arthur Gretton
- Abstract要約: 政策勾配法および強化学習のための進化戦略への新しい最適化手法を提案する。
この手順は、ワッサーシュタインのペナルティによって誘導される幾何を利用して速度最適化を行う計算効率の良いワッサーシュタイン自然勾配(WNG)降下を用いる。
- 参考スコア(独自算出の注目度): 31.15380502703101
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A novel optimization approach is proposed for application to policy gradient
methods and evolution strategies for reinforcement learning (RL). The procedure
uses a computationally efficient Wasserstein natural gradient (WNG) descent
that takes advantage of the geometry induced by a Wasserstein penalty to speed
optimization. This method follows the recent theme in RL of including a
divergence penalty in the objective to establish a trust region. Experiments on
challenging tasks demonstrate improvements in both computational cost and
performance over advanced baselines.
- Abstract(参考訳): 強化学習(rl)のためのポリシー勾配法と進化戦略に適用するための新しい最適化手法を提案する。
この手順は、ワッサーシュタインのペナルティによって誘導される幾何を利用して速度最適化を行う計算効率の良いワッサーシュタイン自然勾配(WNG)降下を用いる。
この方法は、信頼領域を確立する目的に分散ペナルティを含むという最近のRLのテーマに従っている。
挑戦的なタスクの実験は、高度なベースラインよりも計算コストと性能の両方の改善を示す。
関連論文リスト
- Mollification Effects of Policy Gradient Methods [16.617678267301702]
政策勾配法が非滑らかな最適化環境をどう動員するかを理解するための厳密な枠組みを開発する。
政策勾配法と逆熱方程式の解法との等価性を実証する。
我々は、この制限と調和解析における不確実性原理の関連性を、RLにおける政策による探索の効果を理解するために作成する。
論文 参考訳(メタデータ) (2024-05-28T05:05:33Z) - Assessment of Reinforcement Learning Algorithms for Nuclear Power Plant
Fuel Optimization [0.0]
この研究は、深いRLを用いてロードパターンの問題を解決するための第一種アプローチを示し、任意のエンジニアリング設計最適化に利用することができる。
論文 参考訳(メタデータ) (2023-05-09T23:51:24Z) - Optimal Neural Network Approximation of Wasserstein Gradient Direction
via Convex Optimization [43.6961980403682]
ワッサーシュタイン勾配方向の計算は、後続サンプリング問題や科学計算に不可欠である。
正方形ReLUアクティベーションを持つ2層ネットワーク群において、半定値プログラミング(SDP)緩和を導出する変動問題について検討する。
このSDPは、2層ネットワークを含むより広い関数群におけるワッサーシュタイン勾配の近似と見なすことができる。
論文 参考訳(メタデータ) (2022-05-26T00:51:12Z) - Bag of Tricks for Natural Policy Gradient Reinforcement Learning [87.54231228860495]
我々は,自然政策勾配強化学習のパフォーマンスに影響を及ぼす戦略を実装し,比較した。
提案されたパフォーマンス最適化戦略の収集は、MuJuCoコントロールベンチマークにおいて、結果を86%から181%改善することができる。
論文 参考訳(メタデータ) (2022-01-22T17:44:19Z) - Bregman Gradient Policy Optimization [97.73041344738117]
本稿では,Bregmanの発散と運動量に基づく強化学習のためのBregmanグラデーションポリシーの最適化を設計する。
VR-BGPOは、各イテレーションで1つの軌道のみを必要とする$epsilon$stationaryポイントを見つけるために、$tilde(epsilon-3)$で最高の複雑性に達する。
論文 参考訳(メタデータ) (2021-06-23T01:08:54Z) - On the Linear convergence of Natural Policy Gradient Algorithm [5.027714423258537]
強化学習に対する近年の関心は、最適化に触発された手法の研究の動機となった。
このうち自然政策グラディエント(Natural Policy Gradient)は、MDPのミラー降下型である。
改良された有限時間収束境界を示し,このアルゴリズムが幾何収束率を持つことを示す。
論文 参考訳(メタデータ) (2021-05-04T11:26:12Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。