論文の概要: SING: A Plug-and-Play DNN Learning Technique
- arxiv url: http://arxiv.org/abs/2305.15997v1
- Date: Thu, 25 May 2023 12:39:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 15:18:56.495435
- Title: SING: A Plug-and-Play DNN Learning Technique
- Title(参考訳): SING: プラグアンドプレイDNN学習技術
- Authors: Adrien Courtois, Damien Scieur, Jean-Michel Morel, Pablo Arias, Thomas
Eboli
- Abstract要約: 我々は,Adam(W)の安定性とロバスト性を向上させるプラグアンドプレイ技術であるSING(StabIlized and Normalized Gradient)を提案する。
SINGは実装が簡単で、最小限の計算オーバーヘッドを持ち、Adam(W)に供給される勾配の層単位での標準化しか必要としない。
- 参考スコア(独自算出の注目度): 25.563053353709627
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose SING (StabIlized and Normalized Gradient), a plug-and-play
technique that improves the stability and generalization of the Adam(W)
optimizer. SING is straightforward to implement and has minimal computational
overhead, requiring only a layer-wise standardization of the gradients fed to
Adam(W) without introducing additional hyper-parameters. We support the
effectiveness and practicality of the proposed approach by showing improved
results on a wide range of architectures, problems (such as image
classification, depth estimation, and natural language processing), and in
combination with other optimizers. We provide a theoretical analysis of the
convergence of the method, and we show that by virtue of the standardization,
SING can escape local minima narrower than a threshold that is inversely
proportional to the network's depth.
- Abstract(参考訳): 本稿では,Adam(W)オプティマイザの安定性と一般化を改善するプラグイン・アンド・プレイ技術であるSING(StabIlized and Normalized Gradient)を提案する。
SINGは実装が簡単で計算オーバーヘッドも最小限であり、追加のハイパーパラメータを導入することなくAdam(W)に供給される勾配を階層的に標準化するだけでよい。
提案手法の有効性と実用性は,幅広いアーキテクチャ,問題(画像分類,奥行き推定,自然言語処理など),および他のオプティマイザと組み合わせて,改善した結果を示すことによって支援する。
本手法の収束に関する理論的解析を行い、標準化により、SINGはネットワークの深さに逆比例する閾値よりも狭い局所最小値から逃れることができることを示す。
関連論文リスト
- Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [77.9314333505662]
超解像のためのネットワークプルーニングの可能性について検討し、既製のネットワーク設計を活用し、基礎となる計算オーバーヘッドを低減する。
本稿では,各イテレーションにおけるランダム勾配ネットワークのスパース構造を最適化し,新しい反復型軟収縮率(ISS-P)法を提案する。
提案したISS-Pは、最適化プロセスに適応したスパース構造を動的に学習し、より規則化されたスループットを得ることでスパースモデルのトレーニング性を維持することができる。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - Towards Theoretically Inspired Neural Initialization Optimization [66.04735385415427]
我々は,ニューラルネットワークの初期状態を評価するための理論的知見を備えた,GradCosineという微分可能な量を提案する。
標準制約下でGradCosineを最大化することにより、ネットワークのトレーニングとテストの両方の性能を向上させることができることを示す。
サンプル分析から実際のバッチ設定に一般化されたNIOは、無視可能なコストで、より優れた初期化を自動で探すことができる。
論文 参考訳(メタデータ) (2022-10-12T06:49:16Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Penalizing Gradient Norm for Efficiently Improving Generalization in
Deep Learning [13.937644559223548]
ディープニューラルネットワーク(DNN)をうまく一般化するためのトレーニング方法が、ディープラーニングの中心的な関心事である。
最適化時の損失関数の勾配ノルムをペナルティ化することにより,モデル一般化を効果的に向上する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:03:45Z) - Low-Pass Filtering SGD for Recovering Flat Optima in the Deep Learning
Optimization Landscape [15.362190838843915]
LPF-SGD は SGD よりも小さい一般化誤差でより良い最適点に収束することを示す。
本稿では,一般的なDLトレーニング手法と比較して,アルゴリズムが優れた一般化性能を実現することを示す。
論文 参考訳(メタデータ) (2022-01-20T07:13:04Z) - iDARTS: Differentiable Architecture Search with Stochastic Implicit
Gradients [75.41173109807735]
微分可能なArchiTecture Search(DARTS)は先日,ニューラルアーキテクチャサーチ(NAS)の主流になった。
暗黙の関数定理に基づいてDARTSの過次計算に取り組む。
提案手法であるiDARTSのアーキテクチャ最適化は,定常点に収束することが期待される。
論文 参考訳(メタデータ) (2021-06-21T00:44:11Z) - Adaptive Importance Sampling for Finite-Sum Optimization and Sampling
with Decreasing Step-Sizes [4.355567556995855]
ステップサイズを小さくした有限サム最適化とサンプリングのための適応的重要度サンプリングのための簡易かつ効率的なアルゴリズムであるavareを提案する。
標準的な技術的条件下では、$mathcalO(T2/3)$と$mathcalO(T5/6)$の動的後悔をそれぞれ、$mathcalO(T5/6)$のステップサイズで実行するときに達成している。
論文 参考訳(メタデータ) (2021-03-23T00:28:15Z) - A Dynamical View on Optimization Algorithms of Overparameterized Neural
Networks [23.038631072178735]
我々は、一般的に使用される最適化アルゴリズムの幅広いクラスについて考察する。
その結果、ニューラルネットワークの収束挙動を利用することができる。
このアプローチは他の最適化アルゴリズムやネットワーク理論にも拡張できると考えています。
論文 参考訳(メタデータ) (2020-10-25T17:10:22Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。