論文の概要: Unbiased Gradient Estimation in Unrolled Computation Graphs with
Persistent Evolution Strategies
- arxiv url: http://arxiv.org/abs/2112.13835v1
- Date: Mon, 27 Dec 2021 18:54:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-28 15:17:15.917007
- Title: Unbiased Gradient Estimation in Unrolled Computation Graphs with
Persistent Evolution Strategies
- Title(参考訳): 永続的進化戦略をもつアンロール型計算グラフの非バイアス勾配推定
- Authors: Paul Vicol, Luke Metz, Jascha Sohl-Dickstein
- Abstract要約: 我々は、グラフを一連の切り離されたアンロールに分割する永続進化戦略(PES)を導入し、各アンロール後の進化戦略に基づく更新ステップを実行する。
PESは、アンロールの全列に対して補正項を蓄積することで、トラルケーションからのバイアスを除去する。
PESは高速なパラメータ更新を可能にし、メモリ使用量が少なく、バイアスがなく、合理的な分散特性を持つ。
- 参考スコア(独自算出の注目度): 44.61637636729407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unrolled computation graphs arise in many scenarios, including training RNNs,
tuning hyperparameters through unrolled optimization, and training learned
optimizers. Current approaches to optimizing parameters in such computation
graphs suffer from high variance gradients, bias, slow updates, or large memory
usage. We introduce a method called Persistent Evolution Strategies (PES),
which divides the computation graph into a series of truncated unrolls, and
performs an evolution strategies-based update step after each unroll. PES
eliminates bias from these truncations by accumulating correction terms over
the entire sequence of unrolls. PES allows for rapid parameter updates, has low
memory usage, is unbiased, and has reasonable variance characteristics. We
experimentally demonstrate the advantages of PES compared to several other
methods for gradient estimation on synthetic tasks, and show its applicability
to training learned optimizers and tuning hyperparameters.
- Abstract(参考訳): 未ロール計算グラフは、rnnのトレーニング、未ロール最適化によるハイパーパラメータのチューニング、学習したオプティマイザのトレーニングなど、多くのシナリオで発生します。
このような計算グラフのパラメータを最適化する現在のアプローチは、高い分散勾配、バイアス、遅い更新、大きなメモリ使用に苦しむ。
そこで我々は,PES(Persistent Evolution Strategies)と呼ばれる手法を導入し,計算グラフを一連の切り離されたアンロールに分割し,各アンロール後の進化戦略に基づく更新ステップを実行する。
pesは、アンロールのシーケンス全体にわたって補正項を蓄積することにより、これらの切断からバイアスを取り除く。
PESは高速なパラメータ更新を可能にし、メモリ使用量が少なく、バイアスがなく、合理的な分散特性を持つ。
合成タスクの勾配推定法と比較して, PESの利点を実験的に実証し, 学習したオプティマイザのトレーニングやハイパーパラメータのチューニングへの適用性を示した。
関連論文リスト
- MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
Adam、Adam、およびそれらの変種のような大規模な勾配アルゴリズムは、この種のトレーニングの開発の中心となっている。
本稿では,事前条件付き勾配最適化手法と,スケールドモーメント手法による分散低減を両立させる枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - Adaptive Friction in Deep Learning: Enhancing Optimizers with Sigmoid and Tanh Function [0.0]
我々は適応摩擦係数を統合する2つの新しい勾配であるsigSignGradとtanhSignGradを紹介する。
我々の理論解析は,摩擦係数Sの広帯域調整能力を示す。
ResNet50 と ViT アーキテクチャを用いた CIFAR-10, Mini-Image-Net 実験により,提案手法の優れた性能が確認された。
論文 参考訳(メタデータ) (2024-08-07T03:20:46Z) - Stochastic Gradient Descent with Preconditioned Polyak Step-size [1.3300175008796402]
Gradient Descent with Polyak Step-size (SPS)は、データセットの学習率を微調整する必要性を軽減する更新ルールを提供する方法である。
本稿では,Hutchinson'sやAda'sなどのプレコンディショニング技術を用いたSPSの拡張を提案する。
論文 参考訳(メタデータ) (2023-10-03T14:36:05Z) - Variance-Reduced Gradient Estimation via Noise-Reuse in Online Evolution
Strategies [50.10277748405355]
Noise-Reuse Evolution Strategies (NRES) は、非バイアスのオンライン進化戦略の一般的なクラスである。
NRESの結果は既存のAD法やES法よりも早く,様々なアプリケーションにまたがるウォールクロック時間とステップ数で収束することを示す。
論文 参考訳(メタデータ) (2023-04-21T17:53:05Z) - Tom: Leveraging trend of the observed gradients for faster convergence [0.0]
TomはAdamの新しい変種であり、ニューラルネットワークによって渡される損失の風景の勾配の傾向を考慮に入れている。
Tomは両方の精度でAdagrad、Adadelta、RMSProp、Adamを上回り、より早く収束する。
論文 参考訳(メタデータ) (2021-09-07T20:19:40Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。