論文の概要: Bi-Drop: Generalizable Fine-tuning for Pre-trained Language Models via
Adaptive Subnetwork Optimization
- arxiv url: http://arxiv.org/abs/2305.14760v1
- Date: Wed, 24 May 2023 06:09:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 19:21:50.580765
- Title: Bi-Drop: Generalizable Fine-tuning for Pre-trained Language Models via
Adaptive Subnetwork Optimization
- Title(参考訳): Bi-Drop: 適応サブネットワーク最適化による事前学習言語モデルの一般化可能な微調整
- Authors: Shoujie Tong, Heming Xia, Damai Dai, Tianyu Liu, Binghuai Lin, Yunbo
Cao, Zhifang Sui
- Abstract要約: 本稿では,Bi-Dropと呼ばれる事前学習言語モデルの動的微調整戦略を提案する。
GLUEベンチマークの実験では、Bi-Dropは従来の微調整方法よりもかなり優れていた。
- 参考スコア(独自算出の注目度): 30.631733395175765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained language models have achieved remarkable success in a variety of
natural language understanding tasks. Nevertheless, finetuning large pretrained
models on downstream tasks is susceptible to overfitting if the training set is
limited, which will lead to diminished performance. In this work, we propose a
dynamic fine-tuning strategy for pretrained language models called Bi-Drop. It
utilizes the gradient information of various sub-models generated by dropout to
update the model parameters selectively. Experiments on the GLUE benchmark show
that Bi-Drop outperforms previous fine-tuning methods by a considerable margin,
and exhibits consistent superiority over vanilla fine-tuning across various
pretrained models. Furthermore, empirical results indicate that Bi-Drop yields
substantial improvements in the multiple task or domain transfer, data
imbalance, and low-resource scenarios, demonstrating superb generalization
ability and robustness.
- Abstract(参考訳): 事前訓練された言語モデルは、様々な自然言語理解タスクにおいて顕著な成功を収めた。
それでも、ダウンストリームタスクで事前トレーニングされた大規模モデルの微調整は、トレーニングセットが制限された場合のオーバーフィットの影響を受けやすいため、パフォーマンスが低下する。
本研究では,Bi-Dropと呼ばれる事前学習言語モデルの動的微調整戦略を提案する。
ドロップアウトによって生成される様々なサブモデルの勾配情報を利用して、モデルパラメータを選択的に更新する。
GLUEベンチマークの実験では、Bi-Dropは従来の微調整法よりもかなり優れており、様々な事前訓練されたモデルに対してバニラ微調整よりも一貫した優位性を示している。
さらに、経験的な結果から、bi-dropは多重タスクやドメイン転送、データ不均衡、低リソースシナリオの大幅な改善をもたらし、超一般化能力と堅牢性を示している。
関連論文リスト
- A Bayesian Approach to Data Point Selection [24.98069363998565]
データポイントの選択(DPS)は、ディープラーニングにおいて重要なトピックになりつつある。
既存のDPSへのアプローチは、主にバイレベル最適化(BLO)の定式化に基づいている。
DPSに対する新しいベイズ的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-06T09:04:13Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - End-to-End Weak Supervision [15.125993628007972]
下流モデルを直接学習するためのエンドツーエンドアプローチを提案する。
下流テストセットにおけるエンドモデル性能の観点から,先行作業よりも性能が向上したことを示す。
論文 参考訳(メタデータ) (2021-07-05T19:10:11Z) - Bi-tuning of Pre-trained Representations [79.58542780707441]
Bi-tuningは、教師付きと教師なしの両方の事前訓練された表現を下流タスクに微調整するための一般的な学習フレームワークである。
バイチューニングは、事前訓練された表現のバックボーンに2つのヘッドを統合することで、バニラファインチューニングを一般化する。
バイチューニングは、教師付きモデルと教師なしモデルの両方の微調整タスクを大きなマージンで達成する。
論文 参考訳(メタデータ) (2020-11-12T03:32:25Z) - Advanced Dropout: A Model-free Methodology for Bayesian Dropout
Optimization [62.8384110757689]
ディープニューラルネットワーク(DNN)の現実的応用において、ユビキタスなオーバーフィッティングが存在する
先進的なドロップアウト手法は、パラメトリック先行でモデルフリーで容易に実装された分布を適用し、ドロップアウト率を適応的に調整する。
7つのコンピュータビジョンデータセットにおける9つのドロップアウト手法に対する高度なドロップアウトの有効性を評価する。
論文 参考訳(メタデータ) (2020-10-11T13:19:58Z) - On the Stability of Fine-tuning BERT: Misconceptions, Explanations, and
Strong Baselines [31.807628937487927]
BERTのような微調整済みの言語モデルは、様々なNLPベンチマークでリーダーボードを独占する一般的なプラクティスとなっている。
以前の文献では、破滅的な忘れ物と微調整データセットの小さなサイズの2つの潜在的な原因が明らかになった。
どちらの仮説も微調整の不安定性を説明できないことを示す。
論文 参考訳(メタデータ) (2020-06-08T19:06:24Z) - Learnable Bernoulli Dropout for Bayesian Deep Learning [53.79615543862426]
Learnable Bernoulli Dropout (LBD) は、他のモデルパラメータと共に最適化されたパラメータとしてドロップアウト率を考慮する新しいモデルに依存しないドロップアウトスキームである。
LBDは画像分類とセマンティックセグメンテーションにおける精度と不確実性の推定を改善する。
論文 参考訳(メタデータ) (2020-02-12T18:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。