論文の概要: Stochastic Gradient Variance Reduction by Solving a Filtering Problem
- arxiv url: http://arxiv.org/abs/2012.12418v1
- Date: Tue, 22 Dec 2020 23:48:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 08:15:00.489474
- Title: Stochastic Gradient Variance Reduction by Solving a Filtering Problem
- Title(参考訳): フィルタ問題の解法による確率勾配変動の低減
- Authors: Xingyi Yang
- Abstract要約: ディープニューラルネットワーク(DNN)は一般的に最適化された勾配降下(SGD)を用いる
試料を用いた勾配推定はノイズが多く信頼性が低い傾向にあり, 勾配のばらつきが大きく, 収束不良が生じる。
勾配を一貫した推定を行う効率的な最適化アルゴリズムである textbfFilter Gradient Decent (FGD) を提案する。
- 参考スコア(独自算出の注目度): 0.951828574518325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks (DNN) are typically optimized using stochastic gradient
descent (SGD). However, the estimation of the gradient using stochastic samples
tends to be noisy and unreliable, resulting in large gradient variance and bad
convergence. In this paper, we propose \textbf{Filter Gradient Decent}~(FGD),
an efficient stochastic optimization algorithm that makes the consistent
estimation of the local gradient by solving an adaptive filtering problem with
different design of filters. Our method reduces variance in stochastic gradient
descent by incorporating the historical states to enhance the current
estimation. It is able to correct noisy gradient direction as well as to
accelerate the convergence of learning. We demonstrate the effectiveness of the
proposed Filter Gradient Descent on numerical optimization and training neural
networks, where it achieves superior and robust performance compared with
traditional momentum-based methods. To the best of our knowledge, we are the
first to provide a practical solution that integrates filtering into gradient
estimation by making the analogy between gradient estimation and filtering
problems in signal processing. (The code is provided in
https://github.com/Adamdad/Filter-Gradient-Decent)
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は通常、確率勾配降下(SGD)を用いて最適化される。
しかし, 確率的試料を用いた勾配の推定は, ノイズが多く信頼性に乏しい傾向にあり, 勾配のばらつきが大きく, 収束不良がみられた。
本稿では,フィルタ設計の異なる適応フィルタリング問題を解くことにより,局所勾配の一貫した推定を行う効率的な確率最適化アルゴリズムである \textbf{filter gradient decent}~(fgd)を提案する。
本手法は,現在の推定値を高めるために,過去の状態を組み込むことにより,確率勾配勾配のばらつきを低減する。
雑音の勾配方向を補正し、学習の収束を加速することができる。
本稿では,従来の運動量に基づく手法と比較して,数値最適化とニューラルネットワークのトレーニングにおけるフィルタ勾配Descentの有効性を示す。
最善の知識を得るためには,信号処理における勾配推定とフィルタリング問題の類似性を生かして,勾配推定にフィルタリングを統合する実用的なソリューションを最初に提供する。
(https://github.com/Adamdad/Filter-Gradient-Decent)
関連論文リスト
- Gradient Correction beyond Gradient Descent [63.33439072360198]
勾配補正は明らかに、ニューラルネットワークのトレーニングにおいて、最も重要な側面である。
勾配補正を行うためのフレームワーク(textbfGCGD)を導入する。
実験結果から, 勾配補正フレームワークは, トレーニングエポックスを$sim$20%削減し, ネットワーク性能を向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-03-16T01:42:25Z) - Scalable Gaussian-process regression and variable selection using
Vecchia approximations [3.4163060063961255]
ヴェッキアをベースとしたミニバッチサブサンプリングは、偏りのない勾配推定器を提供する。
偏りのない勾配推定器を提供するVecchiaベースのミニバッチサブサンプリングを提案する。
論文 参考訳(メタデータ) (2022-02-25T21:22:38Z) - Random-reshuffled SARAH does not need a full gradient computations [77.34726150561087]
StochAstic Recursive grAdientritHm (SARAH)アルゴリズムは、Gradient Descent (SGD)アルゴリズムのばらつき低減版である。
本稿では,完全勾配の必要性を除去する。
集約された勾配は、SARAHアルゴリズムの完全な勾配の見積もりとなる。
論文 参考訳(メタデータ) (2021-11-26T06:00:44Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - KaFiStO: A Kalman Filtering Framework for Stochastic Optimization [27.64040983559736]
ニューラルネットワークのトレーニングでは,サンプルのサブセットをランダムに選択することで,損失関数が時間とともに変化することを示す。
このランダム化は最適化問題を最適なものにする。
我々は、この損失を、何らかの参照に関してうるさい観察と見なすことを提案する。
論文 参考訳(メタデータ) (2021-07-07T16:13:57Z) - Decreasing scaling transition from adaptive gradient descent to
stochastic gradient descent [1.7874193862154875]
本稿では,適応勾配降下法から勾配勾配降下法DSTAdaへのスケーリング遷移を減少させる手法を提案する。
実験の結果,DSTAdaは高速で精度が高く,安定性と堅牢性も向上した。
論文 参考訳(メタデータ) (2021-06-12T11:28:58Z) - q-RBFNN:A Quantum Calculus-based RBF Neural Network [31.14412266444568]
放射状基底関数ニューラルネットワーク(RBFNN)に対する勾配降下に基づく学習手法を提案する。
提案手法は、ジャクソン微分(Jackson derivative)とも呼ばれるq勾配に基づく。
提案した$q$-RBFNNは最小二乗アルゴリズムの文脈における収束性能について解析する。
論文 参考訳(メタデータ) (2021-06-02T08:27:12Z) - Large-Scale Wasserstein Gradient Flows [84.73670288608025]
ワッサーシュタイン勾配流を近似するスケーラブルなスキームを導入する。
我々のアプローチは、JKOステップを識別するために、入力ニューラルネットワーク(ICNN)に依存しています。
その結果、勾配拡散の各ステップで測定値からサンプリングし、その密度を計算することができる。
論文 参考訳(メタデータ) (2021-06-01T19:21:48Z) - Exploiting Adam-like Optimization Algorithms to Improve the Performance
of Convolutional Neural Networks [82.61182037130405]
勾配降下(SGD)は深いネットワークを訓練するための主要なアプローチです。
本研究では,現在と過去の勾配の違いに基づいて,Adamに基づく変分を比較する。
resnet50を勾配降下訓練したネットワークのアンサンブルと融合実験を行った。
論文 参考訳(メタデータ) (2021-03-26T18:55:08Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。