論文の概要: No Parameters Left Behind: Sensitivity Guided Adaptive Learning Rate for
Training Large Transformer Models
- arxiv url: http://arxiv.org/abs/2202.02664v1
- Date: Sun, 6 Feb 2022 00:22:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-08 14:08:32.472475
- Title: No Parameters Left Behind: Sensitivity Guided Adaptive Learning Rate for
Training Large Transformer Models
- Title(参考訳): パラメータ残らない:大規模変圧器モデルの訓練のための感度誘導型適応学習率
- Authors: Chen Liang, Haoming Jiang, Simiao Zuo, Pengcheng He, Xiaodong Liu,
Jianfeng Gao, Weizhu Chen, Tuo Zhao
- Abstract要約: 本稿では,全てのパラメータを十分に訓練するための新しいトレーニング戦略を提案する。
感度の低いパラメータは冗長であり、学習率を高めて適合性を改善する。
対照的に、高い感度を持つパラメータを十分に訓練し、学習率を下げて正規化することで、さらなる過度なオーバーフィッティングを防止する。
- 参考スコア(独自算出の注目度): 132.90062129639705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research has shown the existence of significant redundancy in large
Transformer models. One can prune the redundant parameters without
significantly sacrificing the generalization performance. However, we question
whether the redundant parameters could have contributed more if they were
properly trained. To answer this question, we propose a novel training strategy
that encourages all parameters to be trained sufficiently. Specifically, we
adaptively adjust the learning rate for each parameter according to its
sensitivity, a robust gradient-based measure reflecting this parameter's
contribution to the model performance. A parameter with low sensitivity is
redundant, and we improve its fitting by increasing its learning rate. In
contrast, a parameter with high sensitivity is well-trained, and we regularize
it by decreasing its learning rate to prevent further overfitting. We conduct
extensive experiments on natural language understanding, neural machine
translation, and image classification to demonstrate the effectiveness of the
proposed schedule. Analysis shows that the proposed schedule indeed reduces the
redundancy and improves generalization performance.
- Abstract(参考訳): 近年の研究では、大型変圧器モデルにかなりの冗長性があることが示されている。
一般化性能を著しく犠牲にすることなく冗長パラメータをプルークすることができる。
しかし、適切に訓練された場合、冗長パラメータがより役立ったかどうかを問う。
そこで本研究では,すべてのパラメータを十分に訓練するための新しいトレーニング戦略を提案する。
具体的には,モデル性能に対するパラメータの寄与を反映したロバストな勾配に基づく尺度である,各パラメータの学習率を,その感度に応じて適応的に調整する。
感度の低いパラメータは冗長であり、学習率を高めて適合性を向上させる。
対照的に、感度の高いパラメータはよく訓練され、学習率を下げてさらに過剰にフィットすることを防ぐ。
提案するスケジュールの有効性を示すために,自然言語理解,ニューラルマシン翻訳,画像分類に関する広範な実験を行った。
解析の結果,提案スケジュールにより冗長性が低下し,一般化性能が向上した。
関連論文リスト
- SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation [52.6922833948127]
本研究では,事前学習した拡散モデルにおけるパラメータの重要性について検討する。
本稿では,これらの非効率パラメータをフル活用するための新しいモデル微調整法を提案する。
本手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上する。
論文 参考訳(メタデータ) (2024-09-10T16:44:47Z) - Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。
私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。
最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文 参考訳(メタデータ) (2024-07-08T12:32:51Z) - Sine Activated Low-Rank Matrices for Parameter Efficient Learning [25.12262017296922]
低ランク分解過程に正弦波関数を統合する新しい理論枠組みを提案する。
我々の手法は、視覚変換器(ViT)、Large Language Models(LLM)、NeRF(Neural Radiance Fields)において、既存の低ランクモデルの強化を証明している。
論文 参考訳(メタデータ) (2024-03-28T08:58:20Z) - Low-Rank Rescaled Vision Transformer Fine-Tuning: A Residual Design Approach [17.678759882763078]
事前訓練されたビジョントランスフォーマーの微調整は、下流のタスクにモデルを十分にカスタマイズすることを目的としている。
事前訓練されたモデルの一般化可能な表現能力を維持することと、タスク固有の特徴を取得することのバランスを取ることは重要な課題である。
本稿では,Residual-based Low-Rank Rescaling (RLRR)ファインチューニング戦略を提案する。
論文 参考訳(メタデータ) (2024-03-28T00:14:53Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z) - The Importance of Being Parameters: An Intra-Distillation Method for
Serious Gains [13.579368172149135]
我々は、冗長なパラメータをトレーニングして有益な貢献をすることができると論じている。
そこで本研究では,通常のトレーニング損失に付随して,感度のバランスをとるための一般的なタスク非依存的手法,すなわち蒸留法を提案する。
実験の結果,機械翻訳,自然言語理解,ゼロショット言語間移動における手法の有効性が示された。
論文 参考訳(メタデータ) (2022-05-23T16:01:46Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。