論文の概要: A Coefficient Makes SVRG Effective
- arxiv url: http://arxiv.org/abs/2311.05589v1
- Date: Thu, 9 Nov 2023 18:47:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 14:17:42.906941
- Title: A Coefficient Makes SVRG Effective
- Title(参考訳): SVRGを効果的にする係数
- Authors: Yida Yin, Zhiqiu Xu, Zhiyuan Li, Trevor Darrell, Zhuang Liu
- Abstract要約: SVRG (Variance Reduced Gradient) は理論的に説得力のある最適化手法である。
本研究では,実世界のニューラルネットワークを最適化するSVRGの可能性を示す。
分析の結果,より深いネットワークでは,SVRGの分散低減項の強度は,トレーニングが進むにつれて小さくなり,低下することが明らかとなった。
- 参考スコア(独自算出の注目度): 55.104068027239656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic Variance Reduced Gradient (SVRG), introduced by Johnson & Zhang
(2013), is a theoretically compelling optimization method. However, as Defazio
& Bottou (2019) highlights, its effectiveness in deep learning is yet to be
proven. In this work, we demonstrate the potential of SVRG in optimizing
real-world neural networks. Our analysis finds that, for deeper networks, the
strength of the variance reduction term in SVRG should be smaller and decrease
as training progresses. Inspired by this, we introduce a multiplicative
coefficient $\alpha$ to control the strength and adjust it through a linear
decay schedule. We name our method $\alpha$-SVRG. Our results show
$\alpha$-SVRG better optimizes neural networks, consistently reducing training
loss compared to both baseline and the standard SVRG across various
architectures and image classification datasets. We hope our findings encourage
further exploration into variance reduction techniques in deep learning. Code
is available at https://github.com/davidyyd/alpha-SVRG.
- Abstract(参考訳): SVRG(Stochastic Variance Reduced Gradient)は、Johnson & Zhang (2013)によって導入された理論上魅力的な最適化手法である。
しかし、Defazio & Bottou (2019) が強調しているように、ディープラーニングの有効性はまだ証明されていない。
本研究では,実世界のニューラルネットワークを最適化するSVRGの可能性を示す。
分析の結果,より深いネットワークでは,svrgの分散還元期間の強度は,トレーニングが進むにつれて小さくなり,減少することが示唆された。
これに着想を得た乗算係数$\alpha$を導入し, 強度を制御し, 線形減衰スケジュールで調整する。
私たちのメソッドは $\alpha$-SVRG と命名します。
我々の結果によると、$\alpha$-SVRGはニューラルネットワークを最適化し、さまざまなアーキテクチャや画像分類データセットのベースラインと標準SVRGの両方と比較してトレーニング損失を一貫して低減する。
深層学習における分散低減手法のさらなる探求を促すことを期待する。
コードはhttps://github.com/davidyyd/alpha-SVRGで入手できる。
関連論文リスト
- Can Graph Reordering Speed Up Graph Neural Network Training? An Experimental Study [13.354505458409957]
グラフニューラルネットワーク(GNN)は、グラフ構造化データから学習することができる。
グラフのばらつきは、最適以下のメモリアクセスパターンと長いトレーニング時間をもたらす。
グラフの並べ替えは、CPUおよびGPUベースのトレーニングのトレーニング時間を削減するのに有効であることを示す。
論文 参考訳(メタデータ) (2024-09-17T12:28:02Z) - A Framework for Provably Stable and Consistent Training of Deep
Feedforward Networks [4.21061712600981]
本稿では、教師付き(分類と回帰)および教師なし(強化学習)シナリオにおいて、ディープニューラルネットワークを訓練するための新しいアルゴリズムを提案する。
このアルゴリズムは、標準降下勾配と勾配クリッピング法を組み合わせたものである。
理論的および実験を通して、我々のアルゴリズム更新はばらつきが低く、トレーニング損失はスムーズな方法で減少することを示す。
論文 参考訳(メタデータ) (2023-05-20T07:18:06Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Closing the gap between SVRG and TD-SVRG with Gradient Splitting [17.071971639540976]
時間差(TD)学習は、分散還元法により性能を向上できる強化学習における政策評価である。
最近の研究は、TD学習の解釈を、適切に選択された関数の勾配の分割として利用し、アルゴリズムを簡素化し、SVRGとTDを融合させる。
本研究の主な成果は,1/8ドルの学習率を持つ幾何学的収束であり,凸条件下でSVRGが利用できる収束値と同一である。
論文 参考訳(メタデータ) (2022-11-29T14:21:34Z) - Why Approximate Matrix Square Root Outperforms Accurate SVD in Global
Covariance Pooling? [59.820507600960745]
本稿では,前方通過のSVDと後方伝播のPad'e近似を用いて勾配を計算する新しいGCPメタ層を提案する。
提案するメタレイヤは,さまざまなCNNモデルに統合され,大規模および微細なデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-05-06T08:03:45Z) - RNN Training along Locally Optimal Trajectories via Frank-Wolfe
Algorithm [50.76576946099215]
小領域の損失面に局所的なミニマを反復的に求めることにより,RNNの新規かつ効率的なトレーニング手法を提案する。
新たなRNNトレーニング手法を開発し,追加コストを伴っても,全体のトレーニングコストがバックプロパゲーションよりも低いことを実証的に観察した。
論文 参考訳(メタデータ) (2020-10-12T01:59:18Z) - A Novel Neural Network Training Framework with Data Assimilation [2.948167339160823]
勾配計算を避けるため,データ同化に基づく勾配なし学習フレームワークを提案する。
その結果,提案手法は勾配法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-10-06T11:12:23Z) - Learning Low-rank Deep Neural Networks via Singular Vector Orthogonality
Regularization and Singular Value Sparsification [53.50708351813565]
各ステップにSVDを適用することなく、トレーニング中に低ランクDNNを明示的に達成する最初の方法であるSVDトレーニングを提案する。
SVDトレーニングがDNN層のランクを著しく低減し,同じ精度で計算負荷の低減を実現することを実証的に示す。
論文 参考訳(メタデータ) (2020-04-20T02:40:43Z) - Gradient Centralization: A New Optimization Technique for Deep Neural
Networks [74.935141515523]
勾配集中(GC)は、勾配ベクトルをゼロ平均とする集中化によって、勾配を直接操作する。
GCは、制約された損失関数を持つ射影勾配降下法とみなすことができる。
GCは実装が非常に簡単で、1行のコードだけで既存のグラデーションベースのDNNに簡単に組み込める。
論文 参考訳(メタデータ) (2020-04-03T10:25:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。