論文の概要: Recyclable Tuning for Continual Pre-training
- arxiv url: http://arxiv.org/abs/2305.08702v1
- Date: Mon, 15 May 2023 15:05:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 14:07:11.321188
- Title: Recyclable Tuning for Continual Pre-training
- Title(参考訳): 繰り返し事前トレーニングのためのリサイクル可能なチューニング
- Authors: Yujia Qin, Cheng Qian, Xu Han, Yankai Lin, Huadong Wang, Ruobing Xie,
Zhiyuan Liu, Maosong Sun, and Jie Zhou
- Abstract要約: 継続事前学習は、学習済み言語モデル(PLM)が成長するデータから新たな知識を継続的に獲得し、徐々にアップグレードされるパラダイムである。
時代遅れの適応重量をリサイクルするための適切なアルゴリズムを開発するべきだと我々は主張する。
両手法が組み合わされ,性能が向上することを示す。
- 参考スコア(独自算出の注目度): 98.51583779792031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual pre-training is the paradigm where pre-trained language models
(PLMs) continually acquire fresh knowledge from growing data and gradually get
upgraded. Before an upgraded PLM is released, we may have tuned the original
PLM for various tasks and stored the adapted weights. However, when tuning the
upgraded PLM, these outdated adapted weights will typically be ignored and
discarded, causing a potential waste of resources. We bring this issue to the
forefront and contend that proper algorithms for recycling outdated adapted
weights should be developed. To this end, we formulate the task of recyclable
tuning for continual pre-training. In pilot studies, we find that after
continual pre-training, the upgraded PLM remains compatible with the outdated
adapted weights to some extent. Motivated by this finding, we analyze the
connection between continually pre-trained PLMs from two novel aspects, i.e.,
mode connectivity, and functional similarity. Based on the corresponding
findings, we propose both an initialization-based method and a
distillation-based method for our task. We demonstrate their feasibility in
improving the convergence and performance for tuning the upgraded PLM. We also
show that both methods can be combined to achieve better performance. The
source codes are publicly available at
https://github.com/thunlp/RecyclableTuning.
- Abstract(参考訳): 継続事前学習は、学習済み言語モデル(PLM)が成長するデータから新たな知識を継続的に獲得し、徐々にアップグレードされるパラダイムである。
アップグレードされたPLMがリリースされる前に、様々なタスクのためにオリジナルのPLMを調整し、適応した重みを記憶していたかもしれません。
しかし、アップグレードされたPLMをチューニングする場合、これらの時代遅れの適応した重量は無視され、廃棄され、潜在的に資源の浪費を引き起こす。
我々はこの問題を最前線に持ち込み、時代遅れの適応重量をリサイクルするための適切なアルゴリズムを開発するべきだと主張する。
この目的のために、連続的な事前学習のためのリサイクル可能なチューニングのタスクを定式化する。
パイロット実験では、継続的な事前訓練の後、アップグレードされたPLMは時代遅れの適応重量とある程度は相容れないことが判明した。
この発見に動機づけられて,事前学習されたplm間の接続を,モード接続性と機能的類似性という2つの新しい側面から分析した。
そこで本研究では,初期化法と蒸留法の両方を課題として提案する。
改良されたPLMをチューニングするための収束性および性能の向上の実現可能性を示す。
また,両手法が組み合わされ,性能が向上することを示す。
ソースコードはhttps://github.com/thunlp/recyclabletuningで公開されている。
関連論文リスト
- The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [60.52921835351632]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z) - Generalizable and Stable Finetuning of Pretrained Language Models on Low-Resource Texts [23.94064492903792]
微調整PLMにおける注意誘導重み付けに基づく正規化手法を提案する。
本手法は,各ネットワークの重みを,学習可能な注意パラメータによって制御されたタスク固有重みと事前学習重みの混合として表現する。
トレーニングデータセットの2つの分割に2段階の最適化フレームワークを導入し、一般化を改善し、オーバーフィッティングに対処する。
論文 参考訳(メタデータ) (2024-03-19T17:21:29Z) - Continual Diffusion with STAMINA: STack-And-Mask INcremental Adapters [67.28751868277611]
近年の研究では、テキストから画像への拡散モデルを複数の微細な概念に逐次的にカスタマイズできることが示されている。
我々は、新しいタスクを学習する能力が、長いシーケンスで飽和に達することを示す。
本稿では,低ランクの注意マーク付きアダプタとカスタマイズトークンからなるSTAMINA(STack-And-Mask Incremental Adapters)を提案する。
論文 参考訳(メタデータ) (2023-11-30T18:04:21Z) - On the Usage of Continual Learning for Out-of-Distribution
Generalization in Pre-trained Language Models of Code [12.708117108874083]
事前学習型言語モデル(PLM)は、コードの深層学習において一般的な技術となっている。
本稿では,APIコールとAPI利用予測という2つの下流タスクで広く利用されているPLMアーキテクチャについて検討する。
これらの課題に対処するため,リプレイベースおよび正規化ベースの手法を含む5つの連続学習手法を実装した。
論文 参考訳(メタデータ) (2023-05-06T18:00:21Z) - SPDF: Sparse Pre-training and Dense Fine-tuning for Large Language
Models [4.114555639014612]
本研究は,非構造的重み空間を用いて,事前訓練中にのみ重みのサブセットを訓練する利点を示す。
我々は1.3Bパラメータ GPT-3 XL モデルに最大75%の間隔を誘導できることを示す。
論文 参考訳(メタデータ) (2023-03-18T17:56:01Z) - Revisiting Class-Incremental Learning with Pre-Trained Models:
Generalizability and Adaptivity are All You Need [76.10635571879762]
クラスインクリメンタルラーニング(Class-incremental Learning, CIL)は、古いクラスを忘れずに新しいクラスに適応することを目的としている。
近年の事前訓練は大きな進歩を遂げており、CILには膨大な事前訓練モデル(PTM)が利用できるようになった。
CILの中核となる要素は、モデル更新の適応性と知識伝達の一般化性である。
論文 参考訳(メタデータ) (2023-03-13T17:59:02Z) - Improving Rare Word Recognition with LM-aware MWER Training [50.241159623691885]
本稿では,ハイブリッド自己回帰変換器(HAT)モデルを識別訓練フレームワークで学習する際のLMを紹介する。
浅層核融合では,仮説生成と損失計算の両方でLMを用いており,LM対応MWER学習モデルでは相対的な10%の改善が達成されている。
再構成セットアップでは、小さなニューラルネットワークモジュールを学習し、データ依存の方法で核融合重みを生成する。
論文 参考訳(メタデータ) (2022-04-15T17:19:41Z) - Continual Test-Time Domain Adaptation [94.51284735268597]
テスト時ドメイン適応は、ソースデータを使用しずに、ソース事前訓練されたモデルをターゲットドメインに適応することを目的としている。
CoTTAは実装が容易で、市販の事前訓練モデルに簡単に組み込むことができる。
論文 参考訳(メタデータ) (2022-03-25T11:42:02Z) - Lifelong Pretraining: Continually Adapting Language Models to Emerging
Corpora [31.136334214818305]
本稿では,PTLMが更新され続けている言語モデル事前学習課題について検討する。
ドメインインクリメンタルな研究論文ストリームと時系列に順序付けられたつぶやきストリームを通じて、PTLMを異なる連続学習アルゴリズムで段階的に事前訓練する。
本実験は,ロジット蒸留を最も効果的に行うことにより,学習アルゴリズムが知識保存を改善することを示す。
論文 参考訳(メタデータ) (2021-10-16T09:59:33Z) - JEM++: Improved Techniques for Training JEM [1.5533842336139065]
JEM(Joint Energy-based Model)は、現代のCNN分類器の強力な識別力を保持するハイブリッドモデルである。
我々は,JEMの精度,トレーニング安定性,スピードを全面的に向上させるために,さまざまな新しいトレーニング手順とアーキテクチャ機能を提案する。
論文 参考訳(メタデータ) (2021-09-19T00:17:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。