論文の概要: Fine-Tuning Pretrained Language Models: Weight Initializations, Data
Orders, and Early Stopping
- arxiv url: http://arxiv.org/abs/2002.06305v1
- Date: Sat, 15 Feb 2020 02:40:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-31 22:42:53.314658
- Title: Fine-Tuning Pretrained Language Models: Weight Initializations, Data
Orders, and Early Stopping
- Title(参考訳): 微調整事前訓練言語モデル:軽量初期化、データ順序、早期停止
- Authors: Jesse Dodge, Gabriel Ilharco, Roy Schwartz, Ali Farhadi, Hannaneh
Hajishirzi, Noah Smith
- Abstract要約: 教師付き下流タスクのための微調整済み文脈単語埋め込みモデルは、自然言語処理において一般的なものとなっている。
GLUEベンチマークから得られた4つのデータセットを実験し、無作為な種だけを変えながら、それぞれに数百回微調整されたBERTを実験した。
これまでに報告した結果と比較すると,性能が大幅に向上し,微調整試行回数の関数としてベストファウンドモデルの性能がどう変化するかが定量化される。
- 参考スコア(独自算出の注目度): 62.78338049381917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning pretrained contextual word embedding models to supervised
downstream tasks has become commonplace in natural language processing. This
process, however, is often brittle: even with the same hyperparameter values,
distinct random seeds can lead to substantially different results. To better
understand this phenomenon, we experiment with four datasets from the GLUE
benchmark, fine-tuning BERT hundreds of times on each while varying only the
random seeds. We find substantial performance increases compared to previously
reported results, and we quantify how the performance of the best-found model
varies as a function of the number of fine-tuning trials. Further, we examine
two factors influenced by the choice of random seed: weight initialization and
training data order. We find that both contribute comparably to the variance of
out-of-sample performance, and that some weight initializations perform well
across all tasks explored. On small datasets, we observe that many fine-tuning
trials diverge part of the way through training, and we offer best practices
for practitioners to stop training less promising runs early. We publicly
release all of our experimental data, including training and validation scores
for 2,100 trials, to encourage further analysis of training dynamics during
fine-tuning.
- Abstract(参考訳): 自然言語処理では、教師付きダウンストリームタスクに事前学習されたコンテキスト単語埋め込みモデルが一般的になっている。
しかし、この過程はしばしば不安定で、同じハイパーパラメータ値であっても、異なるランダムな種は、かなり異なる結果をもたらす。
この現象をよりよく理解するために、GLUEベンチマークから得られた4つのデータセットを実験し、ランダムな種だけを変更しながら、それぞれに数百回微調整されたBERTを実験した。
これまでに報告した結果と比較すると,性能が大幅に向上し,微調整試行回数の関数としてベストファウンドモデルの性能がどう変化するかが定量化される。
さらに,無作為種子の選択に影響を及ぼす2つの要因について検討した。
両者とも、サンプル外のパフォーマンスのばらつきに両立し、いくつかの重み初期化が探究されたすべてのタスクでうまく機能することを発見した。
小さなデータセットでは、多くの微調整試験がトレーニングの過程の一部に分かれているのを観察し、実践者が早期に有望でないトレーニングを止めるためのベストプラクティスを提供する。
我々は,2100のトライアルのトレーニングと検証スコアを含む実験データをすべて公開し,微調整中のトレーニングダイナミクスのさらなる分析を奨励する。
関連論文リスト
- A Comparative Study of Pre-training and Self-training [0.40964539027092917]
本研究では,事前学習,自己学習,微調整を併用した,実現可能な訓練パラダイムを実証的に研究するためのアンサンブル手法を提案する。
我々は6つのデータセット、4つのデータ拡張、感情分析と自然言語推論タスクのための不均衡なデータについて実験を行った。
以上の結果から,事前学習と微調整のパラダイムが全体のパフォーマンスに最高の結果をもたらすことが確認された。
論文 参考訳(メタデータ) (2024-09-04T14:30:13Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Examining the Effect of Pre-training on Time Series Classification [21.38211396933795]
本研究では, プレトレーニング後の微調整が微調整過程に及ぼす影響について検討した。
150の分類データセットを網羅的に検討した。
事前学習は、データに適合しないモデルの最適化プロセスを改善するのにしか役立ちません。
事前学習データを追加することで一般化は向上しないが、元のデータボリュームの事前学習の利点を強化することができる。
論文 参考訳(メタデータ) (2023-09-11T06:26:57Z) - Dataset Pruning: Reducing Training Data by Examining Generalization
Influence [30.30255670341501]
すべてのトレーニングデータは、モデルのパフォーマンスに寄与しますか?
モデルのパフォーマンスを著しく犠牲にすることなく、プロキシトレーニングセットとして、トレーニングデータ全体から最小限のサブセットを構築するには、どうすればよいのか?
論文 参考訳(メタデータ) (2022-05-19T05:36:35Z) - Improved Fine-tuning by Leveraging Pre-training Data: Theory and
Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。
近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。
本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文 参考訳(メタデータ) (2021-11-24T06:18:32Z) - Bias-Aware Loss for Training Image and Speech Quality Prediction Models
from Multiple Datasets [13.132388683797503]
学習中の各データセットのバイアスを線形関数で推定するバイアス認識損失関数を提案する。
合成および主観的画像および音声品質データセットにおける品質予測モデルの訓練と検証により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2021-04-20T19:20:11Z) - Multi-Stage Influence Function [97.19210942277354]
我々は、事前学習データまで遡って、微調整されたモデルから予測を追跡するための多段階影響関数スコアを開発する。
本研究は,2つのシナリオについて検討し,事前訓練した埋め込みを微調整タスクで固定または更新する。
論文 参考訳(メタデータ) (2020-07-17T16:03:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。