Fugu-MT 論文翻訳(概要): Improving Stability of Fine-Tuning Pretrained Language Models via Component-Wise Gradient Norm Clipping

論文の概要: Improving Stability of Fine-Tuning Pretrained Language Models via Component-Wise Gradient Norm Clipping

arxiv url: http://arxiv.org/abs/2210.10325v1
Date: Wed, 19 Oct 2022 06:44:20 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-20 14:11:19.490193
Title: Improving Stability of Fine-Tuning Pretrained Language Models via Component-Wise Gradient Norm Clipping
Title（参考訳）: コンポーネントワイズ勾配ノルムクリッピングによる微調整事前学習言語モデルの安定性向上
Authors: Chenghao Yang, Xuezhe Ma
Abstract要約: 大規模事前学習言語モデル(PLM)に対する微調整は、多くの最先端の結果を確立している。従来の研究は、PLMの最上層における破滅的な忘れの問題による不安定さに起因していた。そこで本研究では,異なる成分の収束速度を調整するための簡易な成分勾配標準クリッピング法を提案する。
参考スコア（独自算出の注目度）: 21.51612327905384
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Fine-tuning over large pretrained language models (PLMs) has established many state-of-the-art results. Despite its superior performance, such fine-tuning can be unstable, resulting in significant variance in performance and potential risks for practical applications. Previous works have attributed such instability to the catastrophic forgetting problem in the top layers of PLMs, which indicates iteratively that fine-tuning layers in a top-down manner is a promising solution. In this paper, we first point out that this method does not always work out due to the different convergence speeds of different layers/modules. Inspired by this observation, we propose a simple component-wise gradient norm clipping method to adjust the convergence speed for different components. Experiment results demonstrate that our method achieves consistent improvements in terms of generalization performance, convergence speed, and training stability. The codebase can be found at https://github.com/yangalan123/FineTuningStability.
Abstract（参考訳）: 大規模事前学習言語モデル(PLM)に対する微調整は、多くの最先端の結果を確立している。優れた性能にもかかわらず、このような微調整は不安定になり、実用上のアプリケーションの性能と潜在的なリスクに大きなばらつきをもたらす。従来の研究は、PLMの最上層における破滅的な忘れ問題にそのような不安定さを起因としており、これは上層部の微調整層が有望な解であることを示している。本稿ではまず,異なるレイヤ/モジュールの収束速度が異なるため,この手法が必ずしもうまくいかないことを指摘した。この観測から着想を得て,異なる成分の収束速度を調整するための簡易な成分勾配標準クリッピング法を提案する。実験結果から,本手法は一般化性能,収束速度,訓練安定性の点で一貫した改善が得られた。コードベースはhttps://github.com/yangalan123/FineTuningStabilityで確認できる。

関連論文リスト

PACE: marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization [35.922096876707975]
PACE は PArameter- efficient fine-tuning with Consistency rEgularization の一般化である。 PACEは、拡張一般化のための勾配を暗黙的に正規化するだけでなく、微調整および事前訓練されたモデルも暗黙的に整列して知識を保持することを示す。 PACEは、VTAB-1k、FGVC、少数ショット学習、ドメイン適応の4つの視覚適応タスクにおいて、既存のPEFTメソッドよりも優れている。
論文参考訳（メタデータ） (2024-09-25T17:56:00Z)
Orthogonal SVD Covariance Conditioning and Latent Disentanglement [65.67315418971688]
SVDメタ層をニューラルネットワークに挿入すると、共分散が不調和になる。我々は最寄り直交勾配(NOG)と最適学習率(OLR)を提案する。視覚認識実験は,共分散条件と一般化を同時に改善できることを実証した。
論文参考訳（メタデータ） (2022-12-11T20:31:31Z)
Revisiting Consistency Regularization for Semi-Supervised Learning [80.28461584135967]
そこで我々は,FeatDistLossというシンプルな手法により,一貫性の規則化を改良したフレームワークを提案する。実験結果から,本モデルは様々なデータセットや設定のための新しい技術状態を定義する。
論文参考訳（メタデータ） (2021-12-10T20:46:13Z)
GradInit: Learning to Initialize Neural Networks for Stable and Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文参考訳（メタデータ） (2021-02-16T11:45:35Z)
Self Normalizing Flows [65.73510214694987]
本稿では,各層における学習された近似逆数により,勾配の高価な項を置き換えることで,フローの正規化を訓練するための柔軟なフレームワークを提案する。これにより、各レイヤの正確な更新の計算複雑性が$mathcalO(D3)$から$mathcalO(D2)$に削減される。実験により,これらのモデルは非常に安定であり,正確な勾配値と類似したデータ可能性値に最適化可能であることが示された。
論文参考訳（メタデータ） (2020-11-14T09:51:51Z)
Training Generative Adversarial Networks by Solving Ordinary Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文参考訳（メタデータ） (2020-10-28T15:23:49Z)
Population Gradients improve performance across data-sets and architectures in object classification [6.17047113475566]
ニューラルネットワーク(NN)の学習中に勾配を計算する新しい手法を提案する。アーキテクチャ、データセット、ハイパーパラメータ値、トレーニング長、モデルサイズにわたる最終的なパフォーマンスを大幅に改善する。私たちがテストした広範囲な状況において有効であるのに加えて、パフォーマンスの向上(例えば、F1)は他の広範なパフォーマンス改善手法のどれよりも高いか高いかのどちらかです。
論文参考訳（メタデータ） (2020-10-23T09:40:23Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)
On the Stability of Fine-tuning BERT: Misconceptions, Explanations, and Strong Baselines [31.807628937487927]
BERTのような微調整済みの言語モデルは、様々なNLPベンチマークでリーダーボードを独占する一般的なプラクティスとなっている。以前の文献では、破滅的な忘れ物と微調整データセットの小さなサイズの2つの潜在的な原因が明らかになった。どちらの仮説も微調整の不安定性を説明できないことを示す。
論文参考訳（メタデータ） (2020-06-08T19:06:24Z)
IsoBN: Fine-Tuning BERT with Isotropic Batch Normalization [41.267328947683936]
微調整事前学習言語モデル(PTLM)は、自然言語理解(NLU)タスクのパフォーマンス向上のための一般的なプラクティスである。最近の表現学習の進歩は、等方的埋め込みは、より高速な収束とより優れた一般化で下流タスクの性能を著しく向上させることができることを示している。 PTLMにおける事前学習した埋め込みの等方性は, 可視化により解析し, 標準偏差の高分散と, 寸法間の高相関の2つの主要な問題点を指摘した。
論文参考訳（メタデータ） (2020-05-02T11:49:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。