論文の概要: Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less
Forgetting
- arxiv url: http://arxiv.org/abs/2004.12651v1
- Date: Mon, 27 Apr 2020 08:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 05:11:19.347554
- Title: Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less
Forgetting
- Title(参考訳): リコールと学習: フォーミングを少なくした微調整型事前学習言語モデル
- Authors: Sanyuan Chen, Yutai Hou, Yiming Cui, Wanxiang Che, Ting Liu, Xiangzhan
Yu
- Abstract要約: 本稿では,マルチタスク学習の概念を取り入れたリコール・アンド・ラーニング機構を提案し,事前学習タスクと下流タスクを共同で学習する。
実験により,本手法はGLUEベンチマークの最先端性能を実現することが示された。
我々はオープンソースのRecAdamを提供し、提案されたメカニズムをAdamに統合し、NLPコミュニティを施設化する。
- 参考スコア(独自算出の注目度): 66.45372974713189
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep pretrained language models have achieved great success in the way of
pretraining first and then fine-tuning. But such a sequential transfer learning
paradigm often confronts the catastrophic forgetting problem and leads to
sub-optimal performance. To fine-tune with less forgetting, we propose a recall
and learn mechanism, which adopts the idea of multi-task learning and jointly
learns pretraining tasks and downstream tasks. Specifically, we propose a
Pretraining Simulation mechanism to recall the knowledge from pretraining tasks
without data, and an Objective Shifting mechanism to focus the learning on
downstream tasks gradually. Experiments show that our method achieves
state-of-the-art performance on the GLUE benchmark. Our method also enables
BERT-base to achieve better performance than directly fine-tuning of
BERT-large. Further, we provide the open-source RecAdam optimizer, which
integrates the proposed mechanisms into Adam optimizer, to facility the NLP
community.
- Abstract(参考訳): 深い事前学習された言語モデルは、まず事前学習し、次に微調整することで大きな成功を収めている。
しかし、このようなシーケンシャルトランスファー学習パラダイムは、しばしば破滅的な忘れの問題に直面し、準最適性能をもたらす。
そこで本研究では,マルチタスク学習の概念を取り入れ,事前学習タスクとダウンストリームタスクを共同で学習するリコール・学習機構を提案する。
具体的には,データのない事前学習タスクから知識を想起する事前学習シミュレーション機構と,学習を徐々に下流タスクに集中させる客観的シフト機構を提案する。
実験により,本手法はGLUEベンチマークの最先端性能を実現することが示された。
また,提案手法により,BERT-largeを直接微調整するよりも,BERT-baseの性能が向上する。
さらに,提案機構をAdamオプティマイザに統合したオープンソースのRecAdamオプティマイザを,NLPコミュニティの施設として提供する。
関連論文リスト
- Task-Oriented Pre-Training for Drivable Area Detection [5.57325257338134]
本稿では,冗長なセグメンテーションの提案から始まるタスク指向の事前学習手法を提案する。
次に、コントラスト言語画像事前学習(CLIP)モデルを微調整するための特定カテゴリー強化微調整(SCEF)戦略を導入する。
このアプローチは、手動のアノテートデータを使用してさらに微調整された事前学習モデルの粗いトレーニングデータを生成することができる。
論文 参考訳(メタデータ) (2024-09-30T10:25:47Z) - Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。
事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。
次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文 参考訳(メタデータ) (2024-08-21T06:48:38Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Instruction Pre-Training: Language Models are Supervised Multitask Learners [115.95022434390181]
本稿では,事前学習言語モデル(LM)に対して,命令応答対を用いた大規模生コーパスを付加するフレームワークを提案する。
実験では,40以上のタスクカテゴリをカバーする2億の命令応答ペアを合成し,インストラクション事前学習の有効性を検証する。
論文 参考訳(メタデータ) (2024-06-20T16:55:33Z) - Learning to Modulate pre-trained Models in RL [22.812215561012874]
訓練済みモデルの微調整は、しばしば破滅的な忘れ込みに悩まされる。
本研究は、ほとんどの微調整アプローチにおいて、事前学習タスクのパフォーマンスが著しく低下していることを示す。
凍結事前学習モデルの情報フローを変調することにより,学習スキルの劣化を回避する新しい手法L2Mを提案する。
論文 参考訳(メタデータ) (2023-06-26T17:53:05Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - Incremental Learning for End-to-End Automatic Speech Recognition [41.297106772785206]
エンドツーエンド自動音声認識(ASR)のための漸進的学習法を提案する。
本稿では, ASRモデルに対する新しい説明可能性に基づく知識蒸留を設計し, 応答に基づく知識蒸留と組み合わせて, 元のモデルの予測と予測の「理性」を維持する。
多段階連続訓練タスクの結果,提案手法は忘れを緩和する上で,既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-05-11T08:18:08Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。