論文の概要: Gradient Sparsification For Masked Fine-Tuning of Transformers
- arxiv url: http://arxiv.org/abs/2307.10098v1
- Date: Wed, 19 Jul 2023 16:13:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 13:18:24.033215
- Title: Gradient Sparsification For Masked Fine-Tuning of Transformers
- Title(参考訳): 変圧器のマスク微調整における勾配スパーシフィケーション
- Authors: James O' Neill and Sourav Dutta
- Abstract要約: 調整済みの自己教師型言語モデルが下流タスクへの変換学習に広く採用されている。
緩やかな凍結は、トレーニング中に層全体の勾配を徐々に解凍することで両者のトレードオフをもたらす。
徐々に凍結する層が、緩やかに変化して徐々に凍結する層に比べて、トレーニング全体を通して徐々に凍結する層が最適であるかどうかは不明である。
- 参考スコア(独自算出の注目度): 6.936564049727831
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning pretrained self-supervised language models is widely adopted for
transfer learning to downstream tasks. Fine-tuning can be achieved by freezing
gradients of the pretrained network and only updating gradients of a newly
added classification layer, or by performing gradient updates on all
parameters. Gradual unfreezing makes a trade-off between the two by gradually
unfreezing gradients of whole layers during training. This has been an
effective strategy to trade-off between storage and training speed with
generalization performance. However, it is not clear whether gradually
unfreezing layers throughout training is optimal, compared to sparse variants
of gradual unfreezing which may improve fine-tuning performance. In this paper,
we propose to stochastically mask gradients to regularize pretrained language
models for improving overall fine-tuned performance. We introduce GradDrop and
variants thereof, a class of gradient sparsification methods that mask
gradients during the backward pass, acting as gradient noise. GradDrop is
sparse and stochastic unlike gradual freezing. Extensive experiments on the
multilingual XGLUE benchmark with XLMR-Large show that GradDrop is competitive
against methods that use additional translated data for intermediate
pretraining and outperforms standard fine-tuning and gradual unfreezing. A
post-analysis shows how GradDrop improves performance with languages it was not
trained on, such as under-resourced languages.
- Abstract(参考訳): 調整済みの自己教師型言語モデルが下流タスクへの変換学習に広く採用されている。
微調整は、事前訓練されたネットワークの勾配を凍結し、新たに追加された分類層の勾配のみを更新するか、または全てのパラメータの勾配を更新することによって達成できる。
緩やかな凍結は、トレーニング中に層全体の勾配を徐々に解凍することで両者のトレードオフをもたらす。
これは、一般化性能でストレージとトレーニングスピードをトレードオフする効果的な戦略であった。
しかし、微調整性能を改善する段階的凍結のばらばらな変種と比較して、トレーニングを通して徐々に凍結層が最適かどうかは不明である。
本稿では,事前訓練された言語モデルを規則化し,全体的な微調整性能を改善するために,確率的に勾配をマスクする手法を提案する。
後方通過時の勾配を隠蔽し,勾配雑音として機能する勾配スカラー化法であるGradDropとその変種について紹介する。
GradDropは緩やかで、徐々に凍結する。
XLMR-Largeを用いたマルチリンガルXGLUEベンチマークの大規模な実験により、GradDropは中間的事前学習のために追加の翻訳データを使用し、標準の微調整および段階的凍結を上回る手法と競合することが示された。
分析後、GradDropは、未ソースの言語など、トレーニングされていない言語でパフォーマンスを改善する方法を示している。
関連論文リスト
- AdaRankGrad: Adaptive Gradient-Rank and Moments for Memory-Efficient LLMs Training and Fine-Tuning [9.51289606759621]
大規模言語モデル(LLM)の訓練と微調整には、メモリと計算要求に関する課題が伴う。
低ランク適応(LoRA)など、これらの課題に対処する様々な技術が開発されている。
トレーニングが進むにつれて、推定勾配のランクが徐々に低下する現象に着想を得た新しい手法を導入する。
論文 参考訳(メタデータ) (2024-10-23T13:53:26Z) - How to guess a gradient [68.98681202222664]
我々は、勾配が以前考えられていたよりもより構造化されていることを示す。
この構造をエクスプロイトすると、勾配のない最適化スキームが大幅に改善される。
厳密な勾配の最適化と勾配の推測の間に大きなギャップを克服する上での新たな課題を強調した。
論文 参考訳(メタデータ) (2023-12-07T21:40:44Z) - Empirical Analysis on Top-k Gradient Sparsification for Distributed Deep
Learning in a Supercomputing Environment [0.6091702876917281]
通信トラフィックを大幅に削減するために,勾配スペーシフィケーションが提案されている。
Top-kグラデーションスペーシフィケーション(Top-k SGD)は、トレーニング全体のパフォーマンス向上に限界がある。
我々はTop-k SGDの非効率性を示す実験を行い、低性能の知見を提供する。
論文 参考訳(メタデータ) (2022-09-18T07:42:31Z) - BBTv2: Pure Black-Box Optimization Can Be Comparable to Gradient Descent
for Few-Shot Learning [83.26610968655815]
Black-Box Tuningは、言語モデルの入力に先立って、連続的なプロンプトトークンを最適化するためのデリバティブフリーなアプローチである。
BBTv2は、言語モデルをグラデーションベースの最適化に匹敵する結果を得るために駆動する、純粋なブラックボックス最適化手法である。
論文 参考訳(メタデータ) (2022-05-23T11:10:19Z) - Gradient Correction beyond Gradient Descent [63.33439072360198]
勾配補正は明らかに、ニューラルネットワークのトレーニングにおいて、最も重要な側面である。
勾配補正を行うためのフレームワーク(textbfGCGD)を導入する。
実験結果から, 勾配補正フレームワークは, トレーニングエポックスを$sim$20%削減し, ネットワーク性能を向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-03-16T01:42:25Z) - On Training Implicit Models [75.20173180996501]
ファントム勾配(ファントム勾配)と呼ばれる暗黙モデルに対する新しい勾配推定法を提案し、正確な勾配の計算コストを抑える。
大規模タスクの実験では、これらの軽量ファントム勾配が暗黙の訓練モデルの後方通過を約1.7倍加速することを示した。
論文 参考訳(メタデータ) (2021-11-09T14:40:24Z) - Adapting Stepsizes by Momentumized Gradients Improves Optimization and
Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文 参考訳(メタデータ) (2021-06-22T03:13:23Z) - Decreasing scaling transition from adaptive gradient descent to
stochastic gradient descent [1.7874193862154875]
本稿では,適応勾配降下法から勾配勾配降下法DSTAdaへのスケーリング遷移を減少させる手法を提案する。
実験の結果,DSTAdaは高速で精度が高く,安定性と堅牢性も向上した。
論文 参考訳(メタデータ) (2021-06-12T11:28:58Z) - SSGD: A safe and efficient method of gradient descent [0.5099811144731619]
勾配降下法は様々な最適化問題を解く上で重要な役割を果たしている。
超勾配降下法による勾配長の隠蔽によるパラメータの更新
我々のアルゴリズムは勾配に対する攻撃に対して防御できる。
論文 参考訳(メタデータ) (2020-12-03T17:09:20Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。