論文の概要: LightPAFF: A Two-Stage Distillation Framework for Pre-training and
Fine-tuning
- arxiv url: http://arxiv.org/abs/2004.12817v1
- Date: Mon, 27 Apr 2020 14:00:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 04:27:52.941517
- Title: LightPAFF: A Two-Stage Distillation Framework for Pre-training and
Fine-tuning
- Title(参考訳): LightPAFF: 事前トレーニングと微調整のための2段階蒸留フレームワーク
- Authors: Kaitao Song, Hao Sun, Xu Tan, Tao Qin, Jianfeng Lu, Hongzhi Liu and
Tie-Yan Liu
- Abstract要約: LightPAFFは、2段階の知識蒸留を使用して、大きな教師モデルから軽量の学生モデルに知識を伝達する。
LightPAFFはモデルサイズを5倍近く削減し、オンライン推論速度を5倍-7倍改善する。
- 参考スコア(独自算出の注目度): 146.51221523793342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While pre-training and fine-tuning, e.g., BERT~\citep{devlin2018bert},
GPT-2~\citep{radford2019language}, have achieved great success in language
understanding and generation tasks, the pre-trained models are usually too big
for online deployment in terms of both memory cost and inference speed, which
hinders them from practical online usage. In this paper, we propose LightPAFF,
a Lightweight Pre-training And Fine-tuning Framework that leverages two-stage
knowledge distillation to transfer knowledge from a big teacher model to a
lightweight student model in both pre-training and fine-tuning stages. In this
way the lightweight model can achieve similar accuracy as the big teacher
model, but with much fewer parameters and thus faster online inference speed.
LightPAFF can support different pre-training methods (such as BERT, GPT-2 and
MASS~\citep{song2019mass}) and be applied to many downstream tasks. Experiments
on three language understanding tasks, three language modeling tasks and three
sequence to sequence generation tasks demonstrate that while achieving similar
accuracy with the big BERT, GPT-2 and MASS models, LightPAFF reduces the model
size by nearly 5x and improves online inference speed by 5x-7x.
- Abstract(参考訳): 事前トレーニングと微調整、例えばbert~\citep{devlin2018bert}、gpt-2~\citep{radford2019language}は言語理解と生成タスクで大きな成功を収めているが、事前トレーニングされたモデルは、通常、メモリコストと推論速度の両方の観点から、オンライン展開には大きすぎるため、オンライン使用を妨げている。
本稿では,2段階の知識蒸留を活用し,事前学習と微調整の両方において,大きな教師モデルから軽量な学生モデルに知識を移す軽量な事前学習および微調整フレームワークであるlightpaffを提案する。
このように、軽量モデルは大きな教師モデルと同様の精度を達成できますが、パラメータがはるかに少なく、オンライン推論速度が速くなります。
LightPAFFは、BERT、GPT-2、MASS~\citep{song2019mass}のような様々な事前学習方法をサポートし、多くの下流タスクに適用できる。
3つの言語理解タスク、3つの言語モデリングタスク、3つのシーケンスからシーケンス生成タスクの実験は、大きなBERT、GPT-2、MASSモデルと同様の精度を達成する一方で、LightPAFFはモデルサイズを5倍近く削減し、オンライン推論速度を5倍-7倍改善することを示した。
関連論文リスト
- LIONs: An Empirically Optimized Approach to Align Language Models [31.225180404295536]
教師付き微調整,オフライン選好学習,オンライン選好学習からなる3段階学習パイプライン上で厳密な分析を行う。
我々は、シーケンスパッキング、SFTにおける損失マスキング、DPOにおける嗜好データセットサイズの増加、オンラインDPOトレーニングなどの手法を用いることで、言語モデルの性能が大幅に向上することを発見した。
論文 参考訳(メタデータ) (2024-07-09T04:34:39Z) - Point-PEFT: Parameter-Efficient Fine-Tuning for 3D Pre-trained Models [46.42092771753465]
我々は、最小限の学習可能なパラメータを持つポイントクラウド事前学習モデルに適用するための新しいフレームワークであるPoint-PEFTを紹介する。
具体的には、事前訓練された3Dモデルに対して、パラメータの大部分を凍結し、新たに追加されたPEFTモジュールを下流タスクでチューニングする。
論文 参考訳(メタデータ) (2023-10-04T16:49:36Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - SPDF: Sparse Pre-training and Dense Fine-tuning for Large Language
Models [4.114555639014612]
本研究は,非構造的重み空間を用いて,事前訓練中にのみ重みのサブセットを訓練する利点を示す。
我々は1.3Bパラメータ GPT-3 XL モデルに最大75%の間隔を誘導できることを示す。
論文 参考訳(メタデータ) (2023-03-18T17:56:01Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - LiST: Lite Self-training Makes Efficient Few-shot Learners [91.28065455714018]
LiSTは古典的な微調整法よりも35%改善し、プロンプトチューニングよりも6%改善した。
論文 参考訳(メタデータ) (2021-10-12T18:47:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。