論文の概要: On the Stability of Fine-tuning BERT: Misconceptions, Explanations, and
Strong Baselines
- arxiv url: http://arxiv.org/abs/2006.04884v3
- Date: Thu, 25 Mar 2021 07:39:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 00:58:34.375760
- Title: On the Stability of Fine-tuning BERT: Misconceptions, Explanations, and
Strong Baselines
- Title(参考訳): 微細チューニングBERTの安定性について:誤解,説明,強塩基性について
- Authors: Marius Mosbach, Maksym Andriushchenko, Dietrich Klakow
- Abstract要約: BERTのような微調整済みの言語モデルは、様々なNLPベンチマークでリーダーボードを独占する一般的なプラクティスとなっている。
以前の文献では、破滅的な忘れ物と微調整データセットの小さなサイズの2つの潜在的な原因が明らかになった。
どちらの仮説も微調整の不安定性を説明できないことを示す。
- 参考スコア(独自算出の注目度): 31.807628937487927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning pre-trained transformer-based language models such as BERT has
become a common practice dominating leaderboards across various NLP benchmarks.
Despite the strong empirical performance of fine-tuned models, fine-tuning is
an unstable process: training the same model with multiple random seeds can
result in a large variance of the task performance. Previous literature (Devlin
et al., 2019; Lee et al., 2020; Dodge et al., 2020) identified two potential
reasons for the observed instability: catastrophic forgetting and small size of
the fine-tuning datasets. In this paper, we show that both hypotheses fail to
explain the fine-tuning instability. We analyze BERT, RoBERTa, and ALBERT,
fine-tuned on commonly used datasets from the GLUE benchmark, and show that the
observed instability is caused by optimization difficulties that lead to
vanishing gradients. Additionally, we show that the remaining variance of the
downstream task performance can be attributed to differences in generalization
where fine-tuned models with the same training loss exhibit noticeably
different test performance. Based on our analysis, we present a simple but
strong baseline that makes fine-tuning BERT-based models significantly more
stable than the previously proposed approaches. Code to reproduce our results
is available online: https://github.com/uds-lsv/bert-stable-fine-tuning.
- Abstract(参考訳): BERTのような微調整済みのトランスフォーマーベースの言語モデルは、様々なNLPベンチマークでリーダーボードを支配する一般的なプラクティスとなっている。
微調整されたモデルの強力な経験的パフォーマンスにもかかわらず、微調整は不安定なプロセスである。
以前の文献(Devlin et al., 2019; Lee et al., 2020; Dodge et al., 2020)では、観測された不安定性の2つの潜在的な理由が明らかになった。
本稿では,両仮説が微調整不安定性を説明できないことを示す。
我々は、GLUEベンチマークからよく使われるデータセットを微調整したBERT、RoBERTa、ALBERTを分析し、観測された不安定性は、勾配の消失につながる最適化困難に起因することを示した。
さらに、ダウンストリームタスク性能の残りのばらつきは、同じトレーニング損失を持つ微調整モデルが顕著に異なるテスト性能を示す一般化の違いに起因していることを示す。
解析結果より,従来の提案手法よりも細調整BERTモデルの方がはるかに安定な,単純だが強力なベースラインを提示する。
結果を再現するコードは、https://github.com/uds-lsv/bert-stable-fine-tuning.com で利用可能です。
関連論文リスト
- COME: Test-time adaption by Conservatively Minimizing Entropy [45.689829178140634]
保守的に最小化されるエントロピー (COME) は従来のエントロピー (EM) の代替品である
COMEはモデル予測よりもディリクレ事前分布を特徴付けることによって、不確実性を明示的にモデル化する。
我々はCOMEが一般的なベンチマークで最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-10-12T09:20:06Z) - Empirical Analysis of Efficient Fine-Tuning Methods for Large
Pre-Trained Language Models [4.096453902709292]
BitFitとアダプタモジュールは、標準のフルモデルファインチューニングと比較される。
BitFitアプローチは、さまざまなトレーニングデータにわたる完全な微調整パフォーマンスと一致します。
アダプタモジュールは、デフォルトモデルよりも一貫性のないゲインを持つ、高い可変性を示す。
論文 参考訳(メタデータ) (2024-01-08T17:44:43Z) - Generalized Logit Adjustment: Calibrating Fine-tuned Models by Removing Label Bias in Foundation Models [75.9543301303586]
CLIPのようなファンデーションモデルは、追加のトレーニングデータなしで、さまざまなタスクでゼロショット転送を可能にする。
微調整やアンサンブルも一般的に下流のタスクに合うように採用されている。
しかし、先行研究は基礎モデルに固有のバイアスを見落としていると論じる。
論文 参考訳(メタデータ) (2023-10-12T08:01:11Z) - Bi-Drop: Enhancing Fine-tuning Generalization via Synchronous sub-net
Estimation and Optimization [58.90989478049686]
Bi-Dropは、様々なサブネットからの勾配を使ってモデルパラメータを選択的に更新する微調整戦略である。
GLUEベンチマークの実験は、Bi-Dropが従来の微調整方法よりも一貫して優れていることを示した。
論文 参考訳(メタデータ) (2023-05-24T06:09:26Z) - Towards Stable Test-Time Adaptation in Dynamic Wild World [60.98073673220025]
テスト時間適応(TTA)は、与えられたモデルをテストサンプルに適応させることで、トレーニングとテストデータの分散シフトに取り組むのに有効であることが示されている。
TTAのオンラインモデル更新は不安定であり、これはしばしば既存のTTAメソッドが現実世界にデプロイされるのを防ぐ重要な障害である。
論文 参考訳(メタデータ) (2023-02-24T02:03:41Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - Noise Stability Regularization for Improving BERT Fine-tuning [94.80511419444723]
BERTのような微調整済みの言語モデルは、様々なNLPタスクにまたがるリーダーボードを支配する一般的なプラクティスとなっている。
レイヤワイドノイズ安定正規化(LNSR)と呼ばれる,NLPタスクの微調整を改善するための,新しい効果的な正規化手法を提案する。
良好な性能を示すモデルが雑音に対する感度が低く、LNSRによる微調整は明らかに高い一般化性と安定性を示すことを実験的に確認した。
論文 参考訳(メタデータ) (2021-07-10T13:19:04Z) - On Robustness and Bias Analysis of BERT-based Relation Extraction [40.64969232497321]
我々は,関係抽出を用いて異なる視点から細調整されたBERTモデルを解析する。
BERTは, ランダム化, 対角的, 対実的テスト, バイアスによって, 頑健性のボトルネックに悩まされている。
論文 参考訳(メタデータ) (2020-09-14T05:24:28Z) - Elastic weight consolidation for better bias inoculation [24.12790037712358]
EWC(Elastic Weight Consolidation)は、モデルの微調整によってバイアスを緩和する。
EWCは標準的な微調整を支配し、元の(バイアス付き)データセットを忘れるレベルの低いモデルを生成する。
論文 参考訳(メタデータ) (2020-04-29T17:45:12Z) - Fine-Tuning Pretrained Language Models: Weight Initializations, Data
Orders, and Early Stopping [62.78338049381917]
教師付き下流タスクのための微調整済み文脈単語埋め込みモデルは、自然言語処理において一般的なものとなっている。
GLUEベンチマークから得られた4つのデータセットを実験し、無作為な種だけを変えながら、それぞれに数百回微調整されたBERTを実験した。
これまでに報告した結果と比較すると,性能が大幅に向上し,微調整試行回数の関数としてベストファウンドモデルの性能がどう変化するかが定量化される。
論文 参考訳(メタデータ) (2020-02-15T02:40:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。