論文の概要: Bi-Drop: Enhancing Fine-tuning Generalization via Synchronous sub-net
Estimation and Optimization
- arxiv url: http://arxiv.org/abs/2305.14760v2
- Date: Sun, 22 Oct 2023 11:46:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 11:32:42.899938
- Title: Bi-Drop: Enhancing Fine-tuning Generalization via Synchronous sub-net
Estimation and Optimization
- Title(参考訳): Bi-Drop: 同期サブネット推定と最適化による微調整一般化の促進
- Authors: Shoujie Tong, Heming Xia, Damai Dai, Runxin Xu, Tianyu Liu, Binghuai
Lin, Yunbo Cao, Zhifang Sui
- Abstract要約: Bi-Dropは、様々なサブネットからの勾配を使ってモデルパラメータを選択的に更新する微調整戦略である。
GLUEベンチマークの実験は、Bi-Dropが従来の微調整方法よりも一貫して優れていることを示した。
- 参考スコア(独自算出の注目度): 58.90989478049686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained language models have achieved remarkable success in natural
language understanding. However, fine-tuning pretrained models on limited
training data tends to overfit and thus diminish performance. This paper
presents Bi-Drop, a fine-tuning strategy that selectively updates model
parameters using gradients from various sub-nets dynamically generated by
dropout. The sub-net estimation of Bi-Drop is performed in an in-batch manner,
so it overcomes the problem of hysteresis in sub-net updating, which is
possessed by previous methods that perform asynchronous sub-net estimation.
Also, Bi-Drop needs only one mini-batch to estimate the sub-net so it achieves
higher utility of training data. Experiments on the GLUE benchmark demonstrate
that Bi-Drop consistently outperforms previous fine-tuning methods.
Furthermore, empirical results also show that Bi-Drop exhibits excellent
generalization ability and robustness for domain transfer, data imbalance, and
low-resource scenarios.
- Abstract(参考訳): 事前訓練された言語モデルは自然言語理解において顕著な成功を収めた。
しかし、限られた訓練データに対する微調整事前訓練モデルは過度に適合し、性能が低下する傾向にある。
本稿では,ドロップアウトによって動的に生成される様々なサブネットの勾配を用いてモデルパラメータを選択的に更新する,微調整戦略であるbi-dropを提案する。
ダブルドロップのサブネット推定はバッチ内で行われるので、非同期サブネット推定を行う以前のメソッドが保持するサブネット更新におけるヒステリシスの問題を克服する。
また、Bi-Dropはトレーニングデータの利便性を高めるために、サブネットを推定するために1つのミニバッチしか必要としない。
GLUEベンチマークの実験は、Bi-Dropが従来の微調整方法よりも一貫して優れていることを示した。
さらに、bi-dropは、ドメイン転送、データ不均衡、低リソースシナリオにおいて、優れた一般化能力と堅牢性を示す。
関連論文リスト
- TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Fine-Tuning Pre-Trained Language Models Effectively by Optimizing
Subnetworks Adaptively [32.001304911395756]
微調整時の大規模事前学習モデルの動的選択(DPS)アルゴリズムを提案する。
GLUEベンチマークの実験では、DPSは全体的な性能と安定性の点で従来の微調整法よりも優れていた。
論文 参考訳(メタデータ) (2022-11-03T08:32:12Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - End-to-End Weak Supervision [15.125993628007972]
下流モデルを直接学習するためのエンドツーエンドアプローチを提案する。
下流テストセットにおけるエンドモデル性能の観点から,先行作業よりも性能が向上したことを示す。
論文 参考訳(メタデータ) (2021-07-05T19:10:11Z) - Bi-tuning of Pre-trained Representations [79.58542780707441]
Bi-tuningは、教師付きと教師なしの両方の事前訓練された表現を下流タスクに微調整するための一般的な学習フレームワークである。
バイチューニングは、事前訓練された表現のバックボーンに2つのヘッドを統合することで、バニラファインチューニングを一般化する。
バイチューニングは、教師付きモデルと教師なしモデルの両方の微調整タスクを大きなマージンで達成する。
論文 参考訳(メタデータ) (2020-11-12T03:32:25Z) - Advanced Dropout: A Model-free Methodology for Bayesian Dropout
Optimization [62.8384110757689]
ディープニューラルネットワーク(DNN)の現実的応用において、ユビキタスなオーバーフィッティングが存在する
先進的なドロップアウト手法は、パラメトリック先行でモデルフリーで容易に実装された分布を適用し、ドロップアウト率を適応的に調整する。
7つのコンピュータビジョンデータセットにおける9つのドロップアウト手法に対する高度なドロップアウトの有効性を評価する。
論文 参考訳(メタデータ) (2020-10-11T13:19:58Z) - On the Stability of Fine-tuning BERT: Misconceptions, Explanations, and
Strong Baselines [31.807628937487927]
BERTのような微調整済みの言語モデルは、様々なNLPベンチマークでリーダーボードを独占する一般的なプラクティスとなっている。
以前の文献では、破滅的な忘れ物と微調整データセットの小さなサイズの2つの潜在的な原因が明らかになった。
どちらの仮説も微調整の不安定性を説明できないことを示す。
論文 参考訳(メタデータ) (2020-06-08T19:06:24Z) - Learnable Bernoulli Dropout for Bayesian Deep Learning [53.79615543862426]
Learnable Bernoulli Dropout (LBD) は、他のモデルパラメータと共に最適化されたパラメータとしてドロップアウト率を考慮する新しいモデルに依存しないドロップアウトスキームである。
LBDは画像分類とセマンティックセグメンテーションにおける精度と不確実性の推定を改善する。
論文 参考訳(メタデータ) (2020-02-12T18:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。