論文の概要: No Parameters Left Behind: Sensitivity Guided Adaptive Learning Rate for
Training Large Transformer Models
- arxiv url: http://arxiv.org/abs/2202.02664v1
- Date: Sun, 6 Feb 2022 00:22:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-08 14:08:32.472475
- Title: No Parameters Left Behind: Sensitivity Guided Adaptive Learning Rate for
Training Large Transformer Models
- Title(参考訳): パラメータ残らない:大規模変圧器モデルの訓練のための感度誘導型適応学習率
- Authors: Chen Liang, Haoming Jiang, Simiao Zuo, Pengcheng He, Xiaodong Liu,
Jianfeng Gao, Weizhu Chen, Tuo Zhao
- Abstract要約: 本稿では,全てのパラメータを十分に訓練するための新しいトレーニング戦略を提案する。
感度の低いパラメータは冗長であり、学習率を高めて適合性を改善する。
対照的に、高い感度を持つパラメータを十分に訓練し、学習率を下げて正規化することで、さらなる過度なオーバーフィッティングを防止する。
- 参考スコア(独自算出の注目度): 132.90062129639705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research has shown the existence of significant redundancy in large
Transformer models. One can prune the redundant parameters without
significantly sacrificing the generalization performance. However, we question
whether the redundant parameters could have contributed more if they were
properly trained. To answer this question, we propose a novel training strategy
that encourages all parameters to be trained sufficiently. Specifically, we
adaptively adjust the learning rate for each parameter according to its
sensitivity, a robust gradient-based measure reflecting this parameter's
contribution to the model performance. A parameter with low sensitivity is
redundant, and we improve its fitting by increasing its learning rate. In
contrast, a parameter with high sensitivity is well-trained, and we regularize
it by decreasing its learning rate to prevent further overfitting. We conduct
extensive experiments on natural language understanding, neural machine
translation, and image classification to demonstrate the effectiveness of the
proposed schedule. Analysis shows that the proposed schedule indeed reduces the
redundancy and improves generalization performance.
- Abstract(参考訳): 近年の研究では、大型変圧器モデルにかなりの冗長性があることが示されている。
一般化性能を著しく犠牲にすることなく冗長パラメータをプルークすることができる。
しかし、適切に訓練された場合、冗長パラメータがより役立ったかどうかを問う。
そこで本研究では,すべてのパラメータを十分に訓練するための新しいトレーニング戦略を提案する。
具体的には,モデル性能に対するパラメータの寄与を反映したロバストな勾配に基づく尺度である,各パラメータの学習率を,その感度に応じて適応的に調整する。
感度の低いパラメータは冗長であり、学習率を高めて適合性を向上させる。
対照的に、感度の高いパラメータはよく訓練され、学習率を下げてさらに過剰にフィットすることを防ぐ。
提案するスケジュールの有効性を示すために,自然言語理解,ニューラルマシン翻訳,画像分類に関する広範な実験を行った。
解析の結果,提案スケジュールにより冗長性が低下し,一般化性能が向上した。
関連論文リスト
- Mini-Ensemble Low-Rank Adapters for Parameter-Efficient Fine-Tuning [74.58403497789422]
低ランク適応 (LoRA) は、適応過程が本質的に低次元であるという考えに基づいている。
我々は、より高階を維持しながらトレーニング可能なパラメータを少なくするミニアンサンブルな低ランクアダプタMELoRAを提案する。
実験結果から, 自然言語理解タスクの8倍のトレーニングパラメータ, 続くタスクの36倍のトレーニングパラメータが得られた。
論文 参考訳(メタデータ) (2024-02-27T07:14:12Z) - Re-parameterized Low-rank Prompt: Generalize a Vision-Language Model
within 0.5K Parameters [75.28536311904489]
そこで我々は,RLP(Re- parameterized Low-rank Prompt)という新しいタイプのプロンプトを開発した。
11データセットを超える一連のタスクにおいて、RLPは0.5Kパラメータだけで古典的なプロンプトチューニングの平均下流精度を最大5.25%向上させる。
論文 参考訳(メタデータ) (2023-12-17T20:42:43Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [63.99489591661645]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Evaluating Parameter-Efficient Transfer Learning Approaches on SURE
Benchmark for Speech Understanding [40.27182770995891]
ファインチューニングは、事前訓練されたモデルからのトランスファー学習のデフォルトアルゴリズムとして広く使われている。
本稿では,様々な音声処理タスクに対するパラメータ効率学習のための音声不確定評価(SURE)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-03-02T08:57:33Z) - The Importance of Being Parameters: An Intra-Distillation Method for
Serious Gains [13.579368172149135]
我々は、冗長なパラメータをトレーニングして有益な貢献をすることができると論じている。
そこで本研究では,通常のトレーニング損失に付随して,感度のバランスをとるための一般的なタスク非依存的手法,すなわち蒸留法を提案する。
実験の結果,機械翻訳,自然言語理解,ゼロショット言語間移動における手法の有効性が示された。
論文 参考訳(メタデータ) (2022-05-23T16:01:46Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。