論文の概要: A Coefficient Makes SVRG Effective
- arxiv url: http://arxiv.org/abs/2311.05589v2
- Date: Mon, 17 Mar 2025 11:14:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:33:40.334792
- Title: A Coefficient Makes SVRG Effective
- Title(参考訳): SVRGを効果的にする係数
- Authors: Yida Yin, Zhiqiu Xu, Zhiyuan Li, Trevor Darrell, Zhuang Liu,
- Abstract要約: SVRG (Variance Reduced Gradient) は理論的に説得力のある最適化手法である。
本研究では,実世界のニューラルネットワークを最適化するSVRGの可能性を示す。
- 参考スコア(独自算出の注目度): 51.36251650664215
- License:
- Abstract: Stochastic Variance Reduced Gradient (SVRG), introduced by Johnson & Zhang (2013), is a theoretically compelling optimization method. However, as Defazio & Bottou (2019) highlight, its effectiveness in deep learning is yet to be proven. In this work, we demonstrate the potential of SVRG in optimizing real-world neural networks. Our empirical analysis finds that, for deeper neural networks, the strength of the variance reduction term in SVRG should be smaller and decrease as training progresses. Inspired by this, we introduce a multiplicative coefficient $\alpha$ to control the strength and adjust it through a linear decay schedule. We name our method $\alpha$-SVRG. Our results show $\alpha$-SVRG better optimizes models, consistently reducing training loss compared to the baseline and standard SVRG across various model architectures and multiple image classification datasets. We hope our findings encourage further exploration into variance reduction techniques in deep learning. Code is available at github.com/davidyyd/alpha-SVRG.
- Abstract(参考訳): SVRG(Stochastic Variance Reduced Gradient)は、Johnson & Zhang (2013)によって導入された理論上魅力的な最適化手法である。
しかし、Defazio & Bottou (2019) が強調しているように、ディープラーニングにおけるその効果はまだ証明されていない。
本研究では,実世界のニューラルネットワークを最適化するSVRGの可能性を示す。
我々の経験的分析によると、より深いニューラルネットワークでは、SVRGの分散縮小項の強度は、トレーニングが進むにつれて小さくなり、減少する。
これに着想を得た乗算係数$\alpha$を導入し, 強度を制御し, 線形減衰スケジュールで調整する。
私たちのメソッドは $\alpha$-SVRG と命名します。
以上の結果から,モデルの最適化に$\alpha$-SVRGが有効であること,ベースラインや標準SVRGと比較してトレーニング損失が一定に減少すること,および複数の画像分類データセットについて検討した。
深層学習における分散低減手法のさらなる探究を期待する。
コードはgithub.com/davidyyd/alpha-SVRGで入手できる。
関連論文リスト
- Can Graph Reordering Speed Up Graph Neural Network Training? An Experimental Study [13.354505458409957]
グラフニューラルネットワーク(GNN)は、グラフ構造化データから学習することができる。
グラフのばらつきは、最適以下のメモリアクセスパターンと長いトレーニング時間をもたらす。
グラフの並べ替えは、CPUおよびGPUベースのトレーニングのトレーニング時間を削減するのに有効であることを示す。
論文 参考訳(メタデータ) (2024-09-17T12:28:02Z) - A Framework for Provably Stable and Consistent Training of Deep
Feedforward Networks [4.21061712600981]
本稿では、教師付き(分類と回帰)および教師なし(強化学習)シナリオにおいて、ディープニューラルネットワークを訓練するための新しいアルゴリズムを提案する。
このアルゴリズムは、標準降下勾配と勾配クリッピング法を組み合わせたものである。
理論的および実験を通して、我々のアルゴリズム更新はばらつきが低く、トレーニング損失はスムーズな方法で減少することを示す。
論文 参考訳(メタデータ) (2023-05-20T07:18:06Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Closing the gap between SVRG and TD-SVRG with Gradient Splitting [17.071971639540976]
時間差(TD)学習は、分散還元法により性能を向上できる強化学習における政策評価である。
最近の研究は、TD学習の解釈を、適切に選択された関数の勾配の分割として利用し、アルゴリズムを簡素化し、SVRGとTDを融合させる。
本研究の主な成果は,1/8ドルの学習率を持つ幾何学的収束であり,凸条件下でSVRGが利用できる収束値と同一である。
論文 参考訳(メタデータ) (2022-11-29T14:21:34Z) - Why Approximate Matrix Square Root Outperforms Accurate SVD in Global
Covariance Pooling? [59.820507600960745]
本稿では,前方通過のSVDと後方伝播のPad'e近似を用いて勾配を計算する新しいGCPメタ層を提案する。
提案するメタレイヤは,さまざまなCNNモデルに統合され,大規模および微細なデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-05-06T08:03:45Z) - RNN Training along Locally Optimal Trajectories via Frank-Wolfe
Algorithm [50.76576946099215]
小領域の損失面に局所的なミニマを反復的に求めることにより,RNNの新規かつ効率的なトレーニング手法を提案する。
新たなRNNトレーニング手法を開発し,追加コストを伴っても,全体のトレーニングコストがバックプロパゲーションよりも低いことを実証的に観察した。
論文 参考訳(メタデータ) (2020-10-12T01:59:18Z) - A Novel Neural Network Training Framework with Data Assimilation [2.948167339160823]
勾配計算を避けるため,データ同化に基づく勾配なし学習フレームワークを提案する。
その結果,提案手法は勾配法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-10-06T11:12:23Z) - Learning Low-rank Deep Neural Networks via Singular Vector Orthogonality
Regularization and Singular Value Sparsification [53.50708351813565]
各ステップにSVDを適用することなく、トレーニング中に低ランクDNNを明示的に達成する最初の方法であるSVDトレーニングを提案する。
SVDトレーニングがDNN層のランクを著しく低減し,同じ精度で計算負荷の低減を実現することを実証的に示す。
論文 参考訳(メタデータ) (2020-04-20T02:40:43Z) - Gradient Centralization: A New Optimization Technique for Deep Neural
Networks [74.935141515523]
勾配集中(GC)は、勾配ベクトルをゼロ平均とする集中化によって、勾配を直接操作する。
GCは、制約された損失関数を持つ射影勾配降下法とみなすことができる。
GCは実装が非常に簡単で、1行のコードだけで既存のグラデーションベースのDNNに簡単に組み込める。
論文 参考訳(メタデータ) (2020-04-03T10:25:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。