論文の概要: Simulated Annealing in Early Layers Leads to Better Generalization
- arxiv url: http://arxiv.org/abs/2304.04858v1
- Date: Mon, 10 Apr 2023 20:41:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 16:55:14.651704
- Title: Simulated Annealing in Early Layers Leads to Better Generalization
- Title(参考訳): 初期層での模擬アニーリングが一般化に繋がる
- Authors: Amirmohammad Sarfi, Zahra Karimpour, Muawiz Chaudhary, Nasir M.
Khalid, Mirco Ravanelli, Sudhir Mudur and Eugene Belilovsky
- Abstract要約: この作業では、後のレイヤの再初期化の代わりに、ネットワークのEArly Layer(SEAL)でシミュレートアニールを使用する。
人気の高いTiny-ImageNetデータセットベンチマークと一連のトランスファー学習と数ショットの学習タスクの実験は、LSFをかなりの差で上回っていることを示している。
また,本手法の予測深度はLLFと通常の訓練よりも有意に低く,平均予測性能が向上したことを示す。
- 参考スコア(独自算出の注目度): 14.850654434843326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, a number of iterative learning methods have been introduced to
improve generalization. These typically rely on training for longer periods of
time in exchange for improved generalization. LLF (later-layer-forgetting) is a
state-of-the-art method in this category. It strengthens learning in early
layers by periodically re-initializing the last few layers of the network. Our
principal innovation in this work is to use Simulated annealing in EArly Layers
(SEAL) of the network in place of re-initialization of later layers.
Essentially, later layers go through the normal gradient descent process, while
the early layers go through short stints of gradient ascent followed by
gradient descent. Extensive experiments on the popular Tiny-ImageNet dataset
benchmark and a series of transfer learning and few-shot learning tasks show
that we outperform LLF by a significant margin. We further show that, compared
to normal training, LLF features, although improving on the target task,
degrade the transfer learning performance across all datasets we explored. In
comparison, our method outperforms LLF across the same target datasets by a
large margin. We also show that the prediction depth of our method is
significantly lower than that of LLF and normal training, indicating on average
better prediction performance.
- Abstract(参考訳): 近年,一般化改善のための反復学習手法が数多く導入されている。
これらは通常、一般化の改善と引き換えに長い期間のトレーニングに依存している。
LLF(後の層鍛造)はこのカテゴリにおける最先端の手法である。
ネットワークの最後のいくつかのレイヤを定期的に再起動することで、初期のレイヤでの学習を強化する。
この研究の主な革新は、後続のレイヤの再初期化の代わりに、ネットワークのEArly Layer(SEAL)でSimulated annealingを使用することです。
基本的に、後の層は通常の勾配降下過程を経るが、初期の層は勾配上昇の短い段階を経て勾配降下する。
人気のTiny-ImageNetデータセットベンチマークと一連のトランスファー学習と数ショットの学習タスクに関する大規模な実験は、LSFをかなりの差で上回っていることを示している。
さらに、通常のトレーニングと比較して、LLF機能は、目標タスクを改善しながら、探索したすべてのデータセット間での転送学習性能を低下させることを示した。
比較して,本手法は,同じターゲットデータセットに対して,大きなマージンでLLFを上回ります。
また,本手法の予測深度はLLFと通常の訓練よりも有意に低く,平均予測性能が向上したことを示す。
関連論文リスト
- SLCA++: Unleash the Power of Sequential Fine-tuning for Continual Learning with Pre-training [68.7896349660824]
本稿では,Seq FTのレンズからの進行オーバーフィッティング問題を詳細に解析する。
過度に高速な表現学習と偏りのある分類層がこの問題を構成することを考慮し、先進的なSlow Learner with Alignment(S++)フレームワークを導入する。
提案手法は,バックボーンパラメータの学習率を選択的に減少させるスローラーナーと,ポストホック方式で不規則な分類層を整列させるアライメントを含む。
論文 参考訳(メタデータ) (2024-08-15T17:50:07Z) - Take A Shortcut Back: Mitigating the Gradient Vanishing for Training Spiking Neural Networks [15.691263438655842]
Spiking Neural Network(SNN)は生物学的にインスパイアされたニューラルネットワーク基盤であり、最近大きな注目を集めている。
SNNの訓練は、発射スパイクプロセスの未定義の勾配のため、直接的に挑戦する。
本論文では,損失から浅い層に直接勾配を伝達する手法を提案する。
論文 参考訳(メタデータ) (2024-01-09T10:54:41Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Penalizing Gradient Norm for Efficiently Improving Generalization in
Deep Learning [13.937644559223548]
ディープニューラルネットワーク(DNN)をうまく一般化するためのトレーニング方法が、ディープラーニングの中心的な関心事である。
最適化時の損失関数の勾配ノルムをペナルティ化することにより,モデル一般化を効果的に向上する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:03:45Z) - Recycling Model Updates in Federated Learning: Are Gradient Subspaces
Low-Rank? [26.055358499719027]
本稿では,この低ランク性を利用して勾配リサイクルを実現する「Look-back Gradient Multiplier(LBGM)」アルゴリズムを提案する。
我々は,LBGMの収束挙動を解析的に特徴付け,通信貯蓄とモデル性能のトレードオフの性質を明らかにする。
LBGMは,既存の分散モデルトレーニングのためのスペーシフィケーション技術の上に,スタンドアロンあるいは積み重ねて使用可能な汎用的なプラグアンドプレイアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2022-02-01T09:05:32Z) - Backward Gradient Normalization in Deep Neural Networks [68.8204255655161]
ニューラルネットワークトレーニングにおける勾配正規化のための新しい手法を提案する。
勾配は、ネットワークアーキテクチャ内の特定の点で導入された正規化レイヤを使用して、後方通過中に再スケールされる。
非常に深いニューラルネットワークを用いたテストの結果、新しい手法が勾配ノルムを効果的に制御できることが示されている。
論文 参考訳(メタデータ) (2021-06-17T13:24:43Z) - Experiments with Rich Regime Training for Deep Learning [30.502751750716392]
ほとんどのパラメータは遅延的であるが、トレーニング中にかなり変化する少数のアクティブパラメータが常に存在することに気付きます。
我々は、アクティブなパラメータのほとんどは、特にネットワークが広くなるにつれて、入力に近い下層にあることを示しています。
そこで本研究では,主に上位層を更新し,時には全ネットワークを更新する確率的LWS-SGDについて検討する。
論文 参考訳(メタデータ) (2021-02-26T14:49:28Z) - Optimization Theory for ReLU Neural Networks Trained with Normalization
Layers [82.61117235807606]
ディープニューラルネットワークの成功は、部分的には正規化レイヤの使用によるものだ。
我々の分析は、正規化の導入がランドスケープをどのように変化させ、より高速なアクティベーションを実現するかを示している。
論文 参考訳(メタデータ) (2020-06-11T23:55:54Z) - Regularizing Meta-Learning via Gradient Dropout [102.29924160341572]
メタ学習モデルは、メタ学習者が一般化するのに十分なトレーニングタスクがない場合、過度に適合する傾向がある。
本稿では,勾配に基づくメタ学習において過度に適合するリスクを軽減するための,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2020-04-13T10:47:02Z) - AL2: Progressive Activation Loss for Learning General Representations in
Classification Neural Networks [12.14537824884951]
本稿では,トレーニング中のアクティベーションの規模を段階的に罰する新たな正規化手法を提案する。
本手法が一般化に与える影響をラベルランダム化試験と累積アブレーションを用いて解析した。
論文 参考訳(メタデータ) (2020-03-07T18:38:46Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。