論文の概要: Do Differentiable Simulators Give Better Policy Gradients?
- arxiv url: http://arxiv.org/abs/2202.00817v1
- Date: Wed, 2 Feb 2022 00:12:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-04 00:29:23.576123
- Title: Do Differentiable Simulators Give Better Policy Gradients?
- Title(参考訳): 差別化可能なシミュレータはポリシー勾配を改善するか?
- Authors: H.J. Terry Suh, Max Simchowitz, Kaiqing Zhang, Russ Tedrake
- Abstract要約: 剛性や不連続性などの物理系の特性が一階推定器の有効性を損なう可能性があることを示す。
さらに、[01]$に$alphaを持つ$alpha$-order gradient estimatorを提案し、これは正確な勾配を正しく利用し、一階推定の効率とゼロ階法の堅牢性を組み合わせる。
- 参考スコア(独自算出の注目度): 62.54538644503705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Differentiable simulators promise faster computation time for reinforcement
learning by replacing zeroth-order gradient estimates of a stochastic objective
with an estimate based on first-order gradients. However, it is yet unclear
what factors decide the performance of the two estimators on complex landscapes
that involve long-horizon planning and control on physical systems, despite the
crucial relevance of this question for the utility of differentiable
simulators. We show that characteristics of certain physical systems, such as
stiffness or discontinuities, may compromise the efficacy of the first-order
estimator, and analyze this phenomenon through the lens of bias and variance.
We additionally propose an $\alpha$-order gradient estimator, with $\alpha \in
[0,1]$, which correctly utilizes exact gradients to combine the efficiency of
first-order estimates with the robustness of zero-order methods. We demonstrate
the pitfalls of traditional estimators and the advantages of the $\alpha$-order
estimator on some numerical examples.
- Abstract(参考訳): 微分シミュレータは、確率的対象のゼロ階勾配推定を1階勾配に基づく推定に置き換えることで、強化学習の高速化を約束する。
しかしながら、この質問が微分可能なシミュレーターの有用性にとって重要な意味を持つにもかかわらず、長期の水平計画と物理システム制御を伴う複雑な景観における2つの推定器の性能を決定する要因は、まだ不明である。
本研究では, 剛性や不連続性などの物理系の特性が一階推定器の有効性を損なう可能性を示し, この現象を偏りと分散のレンズを通して解析する。
さらに, 1次推定の効率とゼロ次推定のロバスト性を組み合わせた正確な勾配を正しく利用する,$\alpha \in [0,1]$の$\alpha$-order勾配推定器を提案する。
従来の推定器の落とし穴と、いくつかの数値例で$\alpha$-order推定器の利点を示す。
関連論文リスト
- Sample Complexity of the Linear Quadratic Regulator: A Reinforcement Learning Lens [11.98212766542468]
我々は,$widetildemathcalO (1/varepsilon)$関数評価において,$varepsilon$-optimalityを達成する最初のアルゴリズムを提供する。
この結果は,2点勾配推定の領域外において,既存の文献を著しく改善する。
論文 参考訳(メタデータ) (2024-04-16T18:54:57Z) - Adaptive Perturbation-Based Gradient Estimation for Discrete Latent
Variable Models [28.011868604717726]
複素離散分布に対する適応勾配推定器であるAdaptive IMLEを提案する。
我々の推定器は、他の勾配推定器よりも桁違いに少ないサンプルを必要とする一方で、忠実な推定を行うことができることを示す。
論文 参考訳(メタデータ) (2022-09-11T13:32:39Z) - Momentum-Based Policy Gradient with Second-Order Information [40.51117836892182]
本稿では,2次情報を勾配降下に組み込んだSHARP法を提案する。
従来の研究と異なり,提案アルゴリズムでは,分散還元プロセスの利点を損なうような重要サンプリングを必要としない。
提案手法が様々な制御課題に対して有効であることを示すとともに,実際の技術状況に対する優位性を示す。
論文 参考訳(メタデータ) (2022-05-17T11:56:50Z) - On Training Implicit Models [75.20173180996501]
ファントム勾配(ファントム勾配)と呼ばれる暗黙モデルに対する新しい勾配推定法を提案し、正確な勾配の計算コストを抑える。
大規模タスクの実験では、これらの軽量ファントム勾配が暗黙の訓練モデルの後方通過を約1.7倍加速することを示した。
論文 参考訳(メタデータ) (2021-11-09T14:40:24Z) - High-probability Bounds for Non-Convex Stochastic Optimization with
Heavy Tails [55.561406656549686]
我々は、勾配推定が末尾を持つ可能性のある一階アルゴリズムを用いたヒルベルト非最適化を考える。
本研究では, 勾配, 運動量, 正規化勾配勾配の収束を高確率臨界点に収束させることと, 円滑な損失に対する最もよく知られた繰り返しを示す。
論文 参考訳(メタデータ) (2021-06-28T00:17:01Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Nearest Neighbour Based Estimates of Gradients: Sharp Nonasymptotic
Bounds and Applications [0.6445605125467573]
勾配推定は統計学と学習理論において重要である。
ここでは古典的な回帰設定を考えると、実値の正方形可積分 r.v.$Y$ が予測される。
代替推定法で得られた値に対して, 漸近的境界が改良されることを証明した。
論文 参考訳(メタデータ) (2020-06-26T15:19:43Z) - Adaptive Gradient Methods Can Be Provably Faster than SGD after Finite
Epochs [25.158203665218164]
適応勾配法は有限時間後にランダムシャッフルSGDよりも高速であることを示す。
我々の知る限り、適応的勾配法は有限時間後にSGDよりも高速であることを示すのはこれが初めてである。
論文 参考訳(メタデータ) (2020-06-12T09:39:47Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。