論文の概要: Feature Whitening via Gradient Transformation for Improved Convergence
- arxiv url: http://arxiv.org/abs/2010.01546v2
- Date: Sun, 8 Nov 2020 08:35:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 03:15:07.586993
- Title: Feature Whitening via Gradient Transformation for Improved Convergence
- Title(参考訳): 収束性向上のための勾配変換による特徴白化
- Authors: Shmulik Markovich-Golan, Barak Battash, Amit Bleiweiss
- Abstract要約: 機能白化の複雑さの欠点に対処する。
サンプル変換を重み勾配への変換によって置き換える等価な手法をBサンプルの各バッチに適用する。
CIFAR と Imagenet データセットで実証された画像分類のためのResNet ベースのネットワークを用いて提案アルゴリズムを例示する。
- 参考スコア(独自算出の注目度): 3.5579740292581
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature whitening is a known technique for speeding up training of DNN. Under
certain assumptions, whitening the activations reduces the Fisher information
matrix to a simple identity matrix, in which case stochastic gradient descent
is equivalent to the faster natural gradient descent. Due to the additional
complexity resulting from transforming the layer inputs and their corresponding
gradients in the forward and backward propagation, and from repeatedly
computing the Eigenvalue decomposition (EVD), this method is not commonly used
to date. In this work, we address the complexity drawbacks of feature
whitening. Our contribution is twofold. First, we derive an equivalent method,
which replaces the sample transformations by a transformation to the weight
gradients, applied to every batch of B samples. The complexity is reduced by a
factor of S=(2B), where S denotes the feature dimension of the layer output. As
the batch size increases with distributed training, the benefit of using the
proposed method becomes more compelling. Second, motivated by the theoretical
relation between the condition number of the sample covariance matrix and the
convergence speed, we derive an alternative sub-optimal algorithm which
recursively reduces the condition number of the latter matrix. Compared to EVD,
complexity is reduced by a factor of the input feature dimension M. We
exemplify the proposed algorithms with ResNet-based networks for image
classification demonstrated on the CIFAR and Imagenet datasets. Parallelizing
the proposed algorithms is straightforward and we implement a distributed
version thereof. Improved convergence, in terms of speed and attained accuracy,
can be observed in our experiments.
- Abstract(参考訳): フィーチャーホワイトニングはDNNのトレーニングをスピードアップするテクニックとして知られている。
ある仮定の下では、活性化のホワイトニングはフィッシャー情報行列を単純な同一性行列に還元し、確率的勾配降下はより早い自然勾配降下と等価である。
層入力とそれに対応する勾配を前方および後方の伝播で変換し、固有値分解(evd)を繰り返し計算することにより生じる複雑さが増すため、この手法は一般には使われない。
本研究では,機能白化の複雑さの欠点に対処する。
私たちの貢献は2倍です。
まず、サンプル変換を重み勾配への変換によって置き換える等価な手法をBサンプルのバッチ毎に導出する。
複雑性はS=(2B)因子によって減少し、Sは層出力の特徴次元を表す。
分散トレーニングによってバッチサイズが増加するにつれて,提案手法の利用によるメリットが高まる。
次に, サンプル共分散行列の条件数と収束速度との理論的関係を動機とし, 後者の行列の条件数を再帰的に減少させる代替サブ最適アルゴリズムを導出する。
我々は、cifarおよびimagenetデータセットで実証された画像分類のためのresnetベースのネットワークを用いて、提案アルゴリズムを例示する。
提案アルゴリズムの並列化は簡単であり,その分散バージョンを実装している。
速度と精度の面での収束性の向上は、我々の実験で観察できる。
関連論文リスト
- Flattened one-bit stochastic gradient descent: compressed distributed optimization with controlled variance [55.01966743652196]
パラメータ・サーバ・フレームワークにおける圧縮勾配通信を用いた分散勾配降下(SGD)のための新しいアルゴリズムを提案する。
平坦な1ビット勾配勾配勾配法(FO-SGD)は2つの単純なアルゴリズムの考え方に依存している。
論文 参考訳(メタデータ) (2024-05-17T21:17:27Z) - Faster Sampling without Isoperimetry via Diffusion-based Monte Carlo [30.4930148381328]
拡散に基づくモンテカルロ (DMC) は、等尺条件を超えた一般目標分布から試料を採取する手法である。
DMCは、高い勾配の複雑さに遭遇し、その結果、得られたサンプルのエラー耐性$epsilon$に指数関数的に依存する。
本稿では,新しい再帰に基づくスコア推定法に基づくRS-DMCを提案する。
私たちのアルゴリズムは、人気のあるLangevinベースのアルゴリズムよりもはるかに高速です。
論文 参考訳(メタデータ) (2024-01-12T02:33:57Z) - Stochastic Optimization for Non-convex Problem with Inexact Hessian
Matrix, Gradient, and Function [99.31457740916815]
信頼領域(TR)と立方体を用いた適応正則化は、非常に魅力的な理論的性質を持つことが証明されている。
TR法とARC法はヘッセン関数,勾配関数,関数値の非コンパクトな計算を同時に行うことができることを示す。
論文 参考訳(メタデータ) (2023-10-18T10:29:58Z) - Optimal Input Gain: All You Need to Supercharge a Feed-Forward Neural
Network [0.6562256987706128]
線形変換を用いた前処理入力は, 負の勾配行列を学習繰り返し毎の自己相関行列に乗じることと等価であることが示されている。
OIGが改良したHWOは、より複雑なディープラーニングアーキテクチャのための重要なビルディングブロックになり得ることが示されている。
論文 参考訳(メタデータ) (2023-03-30T22:20:16Z) - Faster One-Sample Stochastic Conditional Gradient Method for Composite
Convex Minimization [61.26619639722804]
滑らかで非滑らかな項の和として形成される凸有限サム目標を最小化するための条件勾配法(CGM)を提案する。
提案手法は, 平均勾配 (SAG) 推定器を備え, 1回に1回のサンプルしか必要としないが, より高度な分散低減技術と同等の高速収束速度を保証できる。
論文 参考訳(メタデータ) (2022-02-26T19:10:48Z) - Communication-Efficient Federated Learning via Quantized Compressed
Sensing [82.10695943017907]
提案フレームワークは,無線機器の勾配圧縮とパラメータサーバの勾配再構成からなる。
勾配スペーシフィケーションと量子化により、我々の戦略は1ビット勾配圧縮よりも高い圧縮比を達成することができる。
圧縮を行わない場合とほぼ同じ性能を実現できることを示す。
論文 参考訳(メタデータ) (2021-11-30T02:13:54Z) - SHINE: SHaring the INverse Estimate from the forward pass for bi-level
optimization and implicit models [15.541264326378366]
近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。
トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。
本稿では,この計算ボトルネックに対処する新たな手法を提案する。
論文 参考訳(メタデータ) (2021-06-01T15:07:34Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - Variance Reduction with Sparse Gradients [82.41780420431205]
SVRGやSpiderBoostのような分散還元法では、大きなバッチ勾配と小さなバッチ勾配が混在している。
我々は、新しい空間演算子:ランダムトップk演算子を導入する。
我々のアルゴリズムは、画像分類、自然言語処理、スパース行列分解など様々なタスクにおいて、一貫してSpiderBoostより優れています。
論文 参考訳(メタデータ) (2020-01-27T08:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。