論文の概要: Variance Reduction in Deep Learning: More Momentum is All You Need
- arxiv url: http://arxiv.org/abs/2111.11828v1
- Date: Tue, 23 Nov 2021 12:48:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-24 22:23:42.622384
- Title: Variance Reduction in Deep Learning: More Momentum is All You Need
- Title(参考訳): ディープラーニングにおける分散削減: モメンタムが増えるだけで十分
- Authors: Lionel Tondji, Sergii Kashubin, Moustapha Cisse
- Abstract要約: ばらつき低減(VR)技術は、滑らかで強い凸条件下での大量のデータセットによる学習の促進に大きく貢献している。
しかし、データ拡張の利用やドロップアウトのような正規化手法など、さまざまな要因により、大規模深層学習の分野ではまだそのような技術は成功していない。
この課題は、近年、ディープラーニングに特化して設計された新しい分散還元技術の設計を動機付けている。
- 参考スコア(独自算出の注目度): 0.46040036610482665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Variance reduction (VR) techniques have contributed significantly to
accelerating learning with massive datasets in the smooth and strongly convex
setting (Schmidt et al., 2017; Johnson & Zhang, 2013; Roux et al., 2012).
However, such techniques have not yet met the same success in the realm of
large-scale deep learning due to various factors such as the use of data
augmentation or regularization methods like dropout (Defazio & Bottou, 2019).
This challenge has recently motivated the design of novel variance reduction
techniques tailored explicitly for deep learning (Arnold et al., 2019; Ma &
Yarats, 2018). This work is an additional step in this direction. In
particular, we exploit the ubiquitous clustering structure of rich datasets
used in deep learning to design a family of scalable variance reduced
optimization procedures by combining existing optimizers (e.g., SGD+Momentum,
Quasi Hyperbolic Momentum, Implicit Gradient Transport) with a multi-momentum
strategy (Yuan et al., 2019). Our proposal leads to faster convergence than
vanilla methods on standard benchmark datasets (e.g., CIFAR and ImageNet). It
is robust to label noise and amenable to distributed optimization. We provide a
parallel implementation in JAX.
- Abstract(参考訳): ばらつき低減(VR)技術は、スムーズで強い凸条件(Schmidt et al., 2017; Johnson & Zhang, 2013; Roux et al., 2012)における大量のデータセットによる学習の促進に大きく貢献している。
しかしながら、このようなテクニックは、データ拡張やdropout(defazio & bottou, 2019)のような正規化手法の使用など、さまざまな要因により、大規模ディープラーニングの領域でも同じ成功を収めていない。
この課題は最近、ディープラーニング(arnold et al., 2019; ma & yarats, 2018)向けに明示的に調整された新しい分散低減テクニックの設計を動機付けた。
この仕事は、この方向へのさらなる一歩である。
特に、ディープラーニングで使用されるリッチデータセットのユビキタスクラスタリング構造を利用して、既存のオプティマイザ(SGD+Momentum, Quasi Hyperbolic Momentum, Implicit Gradient Transport)とマルチモーメント戦略(Yuan et al., 2019)を組み合わせることで、スケーラブルな分散削減最適化手順のファミリーを設計する。
我々の提案は、標準ベンチマークデータセット(例えば、CIFARやImageNet)のバニラメソッドよりも早く収束する。
ノイズのラベル付けにロバストであり、分散最適化に適している。
JAX で並列実装を提供しています。
関連論文リスト
- Linearly Convergent Mixup Learning [0.0]
より広い範囲のバイナリ分類モデルに拡張する2つの新しいアルゴリズムを提案する。
勾配に基づくアプローチとは異なり、我々のアルゴリズムは学習率のようなハイパーパラメータを必要とせず、実装と最適化を単純化する。
我々のアルゴリズムは、降下勾配法と比較して最適解への高速収束を実現し、ミックスアップデータの増大は、様々な損失関数の予測性能を一貫して改善する。
論文 参考訳(メタデータ) (2025-01-14T02:33:40Z) - Neural Collapse Terminus: A Unified Solution for Class Incremental
Learning and Its Variants [166.916517335816]
本稿では,3つの課題における不整合ジレンマに対する統一解を提案する。
ラベル空間全体の最大等角的クラス間分離を有する固定構造である神経崩壊終端を提案する。
本手法は,データ不均衡やデータ不足にかかわらず,神経崩壊最適度を漸進的に保持する。
論文 参考訳(メタデータ) (2023-08-03T13:09:59Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Improving and Benchmarking Offline Reinforcement Learning Algorithms [87.67996706673674]
この作業は、低レベルの選択とデータセットによって引き起こされるギャップを埋めることを目的としている。
3つの代表アルゴリズムを用いて20の実装選択を実証的に検討する。
CRR+とCQL+の2つの変種がD4RL上で新たな最先端を実現している。
論文 参考訳(メタデータ) (2023-06-01T17:58:46Z) - Invariance Learning in Deep Neural Networks with Differentiable Laplace
Approximations [76.82124752950148]
我々はデータ拡張を選択するための便利な勾配法を開発した。
我々はKronecker-factored Laplace近似を我々の目的とする限界確率に近似する。
論文 参考訳(メタデータ) (2022-02-22T02:51:11Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - SHINE: SHaring the INverse Estimate from the forward pass for bi-level
optimization and implicit models [15.541264326378366]
近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。
トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。
本稿では,この計算ボトルネックに対処する新たな手法を提案する。
論文 参考訳(メタデータ) (2021-06-01T15:07:34Z) - Improving Calibration for Long-Tailed Recognition [68.32848696795519]
このようなシナリオにおけるキャリブレーションとパフォーマンスを改善する2つの方法を提案します。
異なるサンプルによるデータセットバイアスに対して,シフトバッチ正規化を提案する。
提案手法は,複数の長尾認識ベンチマークデータセットに新しいレコードをセットする。
論文 参考訳(メタデータ) (2021-04-01T13:55:21Z) - Distributed Learning with Compressed Gradient Differences [18.390802215440992]
大規模な機械学習モデルのトレーニングには、ボトルネックとなるモデル更新のコミュニケーションが必要である。
更新の圧縮(スペーシフィケーションや量子化など)に基づくいくつかの方法が最近提案されている。
本稿では,バッチ圧縮率の違いによってこの問題を解決する分散学習手法を提案する。
論文 参考訳(メタデータ) (2019-01-26T19:50:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。