論文の概要: Gradient Amplification: An efficient way to train deep neural networks
- arxiv url: http://arxiv.org/abs/2006.10560v1
- Date: Tue, 16 Jun 2020 20:30:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 18:51:52.377373
- Title: Gradient Amplification: An efficient way to train deep neural networks
- Title(参考訳): Gradient Amplification:ディープニューラルネットワークの効率的なトレーニング方法
- Authors: Sunitha Basodi, Chunyan Ji, Haiping Zhang, and Yi Pan
- Abstract要約: 本研究では,ディープラーニングモデルの学習における勾配増幅手法を提案する。
また,学習率の異なる複数のエポックにまたがる勾配増幅を可能または無効にするためのトレーニング戦略も開発している。
- 参考スコア(独自算出の注目度): 1.6542034477245091
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Improving performance of deep learning models and reducing their training
times are ongoing challenges in deep neural networks. There are several
approaches proposed to address these challenges one of which is to increase the
depth of the neural networks. Such deeper networks not only increase training
times, but also suffer from vanishing gradients problem while training. In this
work, we propose gradient amplification approach for training deep learning
models to prevent vanishing gradients and also develop a training strategy to
enable or disable gradient amplification method across several epochs with
different learning rates. We perform experiments on VGG-19 and resnet
(Resnet-18 and Resnet-34) models, and study the impact of amplification
parameters on these models in detail. Our proposed approach improves
performance of these deep learning models even at higher learning rates,
thereby allowing these models to achieve higher performance with reduced
training time.
- Abstract(参考訳): ディープラーニングモデルの性能向上とトレーニング時間の短縮は、ディープニューラルネットワークにおける継続的な課題である。
これらの課題に対処するいくつかのアプローチが提案されており、そのうちの1つはニューラルネットワークの深さを増加させることである。
このような深いネットワークは、トレーニング時間を増やすだけでなく、トレーニング中の勾配の問題も抱える。
本研究では,学習速度の異なる複数の時代にわたる勾配増幅法を有効又は無効にするための学習戦略を考案し,ディープラーニングモデルの学習のための勾配増幅手法を提案する。
VGG-19およびresnet(Resnet-18およびResnet-34)モデルの実験を行い、これらのモデルに対する増幅パラメータの影響を詳細に検討した。
提案手法は,これらのディープラーニングモデルの性能を高い学習率でも向上させ,トレーニング時間を短縮して高い学習性能を実現する。
関連論文リスト
- Take A Shortcut Back: Mitigating the Gradient Vanishing for Training Spiking Neural Networks [15.691263438655842]
Spiking Neural Network(SNN)は生物学的にインスパイアされたニューラルネットワーク基盤であり、最近大きな注目を集めている。
SNNの訓練は、発射スパイクプロセスの未定義の勾配のため、直接的に挑戦する。
本論文では,損失から浅い層に直接勾配を伝達する手法を提案する。
論文 参考訳(メタデータ) (2024-01-09T10:54:41Z) - BLoad: Enhancing Neural Network Training with Efficient Sequential Data Handling [8.859850475075238]
オーバヘッドを最小限に抑えながら、異なるサイズのシーケンスに対して効率的な分散データ並列トレーニングを可能にする新しいトレーニング手法を提案する。
このスキームを使用することで、単一のフレームを削除することなく、パディング量を100ドル以上削減することができ、結果として、トレーニング時間とリコールの両方で全体的なパフォーマンスが向上しました。
論文 参考訳(メタデータ) (2023-10-16T23:14:56Z) - A Novel Method for improving accuracy in neural network by reinstating
traditional back propagation technique [0.0]
本稿では,各層における勾配計算の必要性を解消する新しい瞬時パラメータ更新手法を提案する。
提案手法は,学習を加速し,消失する勾配問題を回避し,ベンチマークデータセット上で最先端の手法より優れる。
論文 参考訳(メタデータ) (2023-08-09T16:41:00Z) - Intelligent gradient amplification for deep neural networks [2.610003394404622]
特に、ディープラーニングモデルは、モデルの深さが増加するにつれて、より大きなトレーニング時間を必要とします。
いくつかの解は独立してこれらの問題に対処するが、統合された解を特定するための最小限の努力があった。
本研究では,定式化手法を用いて,ディープラーニングモデルのどの層を勾配増幅に適用するかをインテリジェントに決定する。
論文 参考訳(メタデータ) (2023-05-29T03:38:09Z) - Dynamics-aware Adversarial Attack of Adaptive Neural Networks [75.50214601278455]
適応型ニューラルネットワークの動的対向攻撃問題について検討する。
本稿では,LGM(Leaded Gradient Method)を提案する。
我々のLGMは、動的無意識攻撃法と比較して、優れた敵攻撃性能を達成している。
論文 参考訳(メタデータ) (2022-10-15T01:32:08Z) - Dimensionality Reduced Training by Pruning and Freezing Parts of a Deep
Neural Network, a Survey [69.3939291118954]
最先端のディープラーニングモデルには、何十億にも達するパラメータカウントがある。そのようなモデルのトレーニング、保存、転送は、エネルギーと時間を要するため、コストがかかる。
モデル圧縮は、ストレージと転送コストを低減し、フォワードおよび/または後方パスでの計算数を減少させることで、トレーニングをより効率的にすることができる。
この研究は、トレーニング全体を通してディープラーニングモデルでトレーニングされた重量を減らす方法に関する調査である。
論文 参考訳(メタデータ) (2022-05-17T05:37:08Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Subset Sampling For Progressive Neural Network Learning [106.12874293597754]
プログレッシブニューラルネットワーク学習は、ネットワークのトポロジを漸進的に構築し、トレーニングデータに基づいてパラメータを最適化するアルゴリズムのクラスである。
段階的なトレーニングステップ毎にトレーニングデータのサブセットを活用することで,このプロセスの高速化を提案する。
オブジェクト,シーン,顔の認識における実験結果から,提案手法が最適化手順を大幅に高速化することを示す。
論文 参考訳(メタデータ) (2020-02-17T18:57:33Z) - Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。
本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。
分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文 参考訳(メタデータ) (2020-02-04T23:03:12Z) - Frosting Weights for Better Continual Training [22.554993259239307]
ニューラルネットワークモデルをトレーニングすることは、生涯にわたる学習プロセスであり、計算集約的なプロセスである。
ディープニューラルネットワークモデルは、新しいデータの再トレーニング中に破滅的な忘れに悩まされる可能性がある。
そこで我々は,この問題を解決するために,勾配向上とメタラーニングという2つの一般的なアンサンブルアプローチを提案する。
論文 参考訳(メタデータ) (2020-01-07T00:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。