論文の概要: Variance Reduction with Sparse Gradients
- arxiv url: http://arxiv.org/abs/2001.09623v1
- Date: Mon, 27 Jan 2020 08:23:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 07:29:58.951973
- Title: Variance Reduction with Sparse Gradients
- Title(参考訳): スパース勾配によるばらつき低減
- Authors: Melih Elibol, Lihua Lei, Michael I. Jordan
- Abstract要約: SVRGやSpiderBoostのような分散還元法では、大きなバッチ勾配と小さなバッチ勾配が混在している。
我々は、新しい空間演算子:ランダムトップk演算子を導入する。
我々のアルゴリズムは、画像分類、自然言語処理、スパース行列分解など様々なタスクにおいて、一貫してSpiderBoostより優れています。
- 参考スコア(独自算出の注目度): 82.41780420431205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Variance reduction methods such as SVRG and SpiderBoost use a mixture of
large and small batch gradients to reduce the variance of stochastic gradients.
Compared to SGD, these methods require at least double the number of operations
per update to model parameters. To reduce the computational cost of these
methods, we introduce a new sparsity operator: The random-top-k operator. Our
operator reduces computational complexity by estimating gradient sparsity
exhibited in a variety of applications by combining the top-k operator and the
randomized coordinate descent operator. With this operator, large batch
gradients offer an extra benefit beyond variance reduction: A reliable estimate
of gradient sparsity. Theoretically, our algorithm is at least as good as the
best algorithm (SpiderBoost), and further excels in performance whenever the
random-top-k operator captures gradient sparsity. Empirically, our algorithm
consistently outperforms SpiderBoost using various models on various tasks
including image classification, natural language processing, and sparse matrix
factorization. We also provide empirical evidence to support the intuition
behind our algorithm via a simple gradient entropy computation, which serves to
quantify gradient sparsity at every iteration.
- Abstract(参考訳): SVRGやSpiderBoostのような分散還元法では、大きなバッチ勾配と小さなバッチ勾配を混合して確率勾配の分散を低減する。
SGDと比較すると、これらの手法はモデルパラメータに対する更新毎の操作回数を少なくとも2倍にする必要がある。
これらの手法の計算コストを削減するため、新しい空間演算子:ランダムトップk演算子を導入する。
提案手法は,top-k演算子と乱数化座標降下演算子を組み合わせることで,様々な応用で現れる勾配スパーシティを推定することで計算複雑性を低減できる。
この演算子では、大きなバッチ勾配は分散低減以上の利点をもたらす:勾配スパーシティの信頼性の高い推定。
理論的には、我々のアルゴリズムは少なくとも最高のアルゴリズム(SpiderBoost)と同等に優れており、ランダムトップk演算子が勾配の間隔を捕捉するたびにさらに性能が向上する。
このアルゴリズムは画像分類や自然言語処理,スパース行列の分解など,様々なタスクにおいて,SpiderBoostよりも一貫して優れています。
また、簡単な勾配エントロピー計算によってアルゴリズムの背後にある直観を裏付ける実証的な証拠を提供し、各イテレーションにおける勾配スパーシティの定量化に役立てます。
関連論文リスト
- Improving Gradient Methods via Coordinate Transformations: Applications to Quantum Machine Learning [0.0]
機械学習アルゴリズムは勾配降下などの勾配に基づく最適化アルゴリズムに大きく依存している。
全体的な性能は、局所的なミニマと不毛の高原の出現に依存する。
本稿では,これらの手法の全般的な性能向上を図り,バレンプラトー効果と局所ミニマ効果を緩和する汎用戦略を提案する。
論文 参考訳(メタデータ) (2023-04-13T18:26:05Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Faster One-Sample Stochastic Conditional Gradient Method for Composite
Convex Minimization [61.26619639722804]
滑らかで非滑らかな項の和として形成される凸有限サム目標を最小化するための条件勾配法(CGM)を提案する。
提案手法は, 平均勾配 (SAG) 推定器を備え, 1回に1回のサンプルしか必要としないが, より高度な分散低減技術と同等の高速収束速度を保証できる。
論文 参考訳(メタデータ) (2022-02-26T19:10:48Z) - Correcting Momentum with Second-order Information [50.992629498861724]
最適積に$O(epsilon)$epsilon点を求める非臨界最適化のための新しいアルゴリズムを開発した。
我々は、さまざまな大規模ディープラーニングベンチマークとアーキテクチャで結果を検証する。
論文 参考訳(メタデータ) (2021-03-04T19:01:20Z) - A Variance Controlled Stochastic Method with Biased Estimation for
Faster Non-convex Optimization [0.0]
減少勾配(SVRG)の性能を向上させるために, 分散制御勾配(VCSG)という新しい手法を提案する。
ラムダ$はVCSGで導入され、SVRGによる分散の過剰還元を避ける。
$mathcalO(min1/epsilon3/2,n1/4/epsilon)$ 勾配評価の数。
論文 参考訳(メタデータ) (2021-02-19T12:22:56Z) - Reparametrizing gradient descent [0.0]
本稿では,ノルム適応勾配勾配という最適化アルゴリズムを提案する。
我々のアルゴリズムは準ニュートン法と比較することもできるが、定常点ではなく根を求める。
論文 参考訳(メタデータ) (2020-10-09T20:22:29Z) - Channel-Directed Gradients for Optimization of Convolutional Neural
Networks [50.34913837546743]
本稿では,畳み込みニューラルネットワークの最適化手法を提案する。
出力チャネル方向に沿って勾配を定義することで性能が向上し,他の方向が有害となることを示す。
論文 参考訳(メタデータ) (2020-08-25T00:44:09Z) - Multi-kernel Passive Stochastic Gradient Algorithms and Transfer
Learning [21.796874356469644]
勾配アルゴリズムはコスト関数のノイズ勾配が評価される位置を制御できない。
このアルゴリズムは高次元問題において著しく優れており、分散還元を取り入れている。
論文 参考訳(メタデータ) (2020-08-23T11:55:19Z) - Carath\'eodory Sampling for Stochastic Gradient Descent [79.55586575988292]
本稿では,Tchakaloff と Carath'eodory の古典的な結果から着想を得た手法を提案する。
我々は、測定値の低減を行う降下ステップを適応的に選択する。
これをBlock Coordinate Descentと組み合わせることで、測定の削減を極めて安価に行えるようにします。
論文 参考訳(メタデータ) (2020-06-02T17:52:59Z) - A Hybrid-Order Distributed SGD Method for Non-Convex Optimization to
Balance Communication Overhead, Computational Complexity, and Convergence
Rate [28.167294398293297]
通信負荷の少ない分散勾配降下法(SGD)を提案する。
各イテレーションにおける計算複雑性を低減するために、ワーカノードは、方向微分をゼロ階勾配推定で近似する。
論文 参考訳(メタデータ) (2020-03-27T14:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。