論文の概要: How fine can fine-tuning be? Learning efficient language models
- arxiv url: http://arxiv.org/abs/2004.14129v1
- Date: Fri, 24 Apr 2020 20:31:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 02:39:08.897423
- Title: How fine can fine-tuning be? Learning efficient language models
- Title(参考訳): 微調整ってどんな感じ?
効率的な言語モデル学習
- Authors: Evani Radiya-Dixit and Xin Wang
- Abstract要約: 大量のラベルのないテキストコーパスで事前訓練された言語モデルを考えると、タスクを学習するためには、非常に軽い教師付き微調整しか必要ありません。
もっとも重要なレイヤのみを微調整するのに十分であることを示す。
その結果、事前訓練されたパラメータの特定の層に一定の数のエントリを0に設定するだけで、巨大な言語モデルの微調整が実現できる。
- 参考スコア(独自算出の注目度): 8.25186900320093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art performance on language understanding tasks is now achieved
with increasingly large networks; the current record holder has billions of
parameters. Given a language model pre-trained on massive unlabeled text
corpora, only very light supervised fine-tuning is needed to learn a task: the
number of fine-tuning steps is typically five orders of magnitude lower than
the total parameter count. Does this mean that fine-tuning only introduces
small differences from the pre-trained model in the parameter space? If so, can
one avoid storing and computing an entire model for each task? In this work, we
address these questions by using Bidirectional Encoder Representations from
Transformers (BERT) as an example. As expected, we find that the fine-tuned
models are close in parameter space to the pre-trained one, with the closeness
varying from layer to layer. We show that it suffices to fine-tune only the
most critical layers. Further, we find that there are surprisingly many good
solutions in the set of sparsified versions of the pre-trained model. As a
result, fine-tuning of huge language models can be achieved by simply setting a
certain number of entries in certain layers of the pre-trained parameters to
zero, saving both task-specific parameter storage and computational cost.
- Abstract(参考訳): 言語理解タスクにおける最先端のパフォーマンスは、今やますます大きなネットワークで達成されている。
大量のラベルのないテキストコーパスで事前学習された言語モデルを考えると、タスクを学ぶには、非常に軽い教師付き微調整のみが必要である: 微調整ステップの数は、通常、合計パラメータ数より5桁低い。
これは、微調整がパラメータ空間の事前学習モデルと小さな違いをもたらすということなのだろうか?
もしそうなら、各タスクのモデル全体の保存と計算を回避できますか?
本稿では,変換器からの双方向エンコーダ表現(BERT)を例として用いて,これらの問題に対処する。
予想通り、微調整されたモデルが事前訓練されたモデルに近いパラメータ空間であり、その密接度は層ごとに異なる。
最重要層のみを微調整することは十分である。
さらに、トレーニング済みモデルのスパース化バージョンには、驚くほど多くの優れたソリューションがあることが分かりました。
結果として、事前学習されたパラメータの特定のレイヤの特定の数のエントリをゼロに設定するだけで、タスク固有のパラメータストレージと計算コストの両方を節約して、巨大な言語モデルの微調整が可能になる。
関連論文リスト
- Contrastive Alignment of Vision to Language Through Parameter-Efficient
Transfer Learning [60.26952378997713]
コントラスト的視覚言語モデル(例えばCLIP)は、コントラスト的トレーニングを通じて視覚モデルと言語モデルの全てのパラメータを更新することによって作成される。
パラメータ更新の最小セット($7%)が、フルモデルトレーニングと同じパフォーマンスを実現可能であることを示す。
既存の知識がパラメータ効率のトレーニングにおいてより強く保存されていることを示す。
論文 参考訳(メタデータ) (2023-03-21T14:12:08Z) - Task-Specific Skill Localization in Fine-tuned Language Models [36.53572616441048]
本稿では,この問題に対するスキルローカライゼーションという用語を紹介する。
単純な最適化は、非常に小さなパラメータのサブセットを特定するために使われる。
この小さなサブセットの微調整された値を事前訓練されたモデルに移植することで、微調整されたモデルとほぼ同等のパフォーマンスが得られる。
論文 参考訳(メタデータ) (2023-02-13T18:55:52Z) - Zero-Shot Learners for Natural Language Understanding via a Unified
Multiple Choice Perspective [26.41585967095811]
ゼロショット学習は、与えられたタスクでモデルをトレーニングすることを目的としており、追加のトレーニングなしで新しい学習タスクに対処できる。
提案手法は、ゼロショット学習を複数選択タスクに変換し、FLANなどの大規模生成モデルで一般的に使用される問題を回避する。
提案手法は,いくつかのベンチマークにおいて最先端の性能を示し,自然言語推論やテキスト分類といったタスクに対して良好な結果をもたらす。
論文 参考訳(メタデータ) (2022-10-16T17:24:06Z) - Probing Structured Pruning on Multilingual Pre-trained Models: Settings,
Algorithms, and Efficiency [62.0887259003594]
本研究では,多言語事前学習言語モデルにおける構造化プルーニングの3つの側面について検討する。
9つの下流タスクの実験は、いくつかの反直観的な現象を示している。
モデルを一度トレーニングし、推論時に異なるモデルサイズに適応できるシンプルなアプローチであるDynamic Sparsificationを紹介します。
論文 参考訳(メタデータ) (2022-04-06T06:29:52Z) - PERFECT: Prompt-free and Efficient Few-shot Learning with Language
Models [67.3725459417758]
PERFECTは、手工芸に頼らずに数発のPLMを微調整するためのシンプルで効率的な方法である。
そこで本研究では,手作業によるタスクプロンプトを,サンプル効率の良い微調整が可能なタスク固有アダプタに置き換えることができることを示す。
幅広い数発のNLPタスクの実験では、PERFECTはシンプルで効率的でありながら、既存の最先端の数発の学習方法よりも優れていることが示されている。
論文 参考訳(メタデータ) (2022-04-03T22:31:25Z) - Prefix-Tuning: Optimizing Continuous Prompts for Generation [85.6357778621526]
微調整は、大規模な事前訓練された言語モデルを使用して下流のタスクを実行する事実上の方法です。
自然言語生成タスクの微調整に代わる軽量なプレフィックスチューニングを提案する。
パラメータの0.1%しか学習しないことで、プレフィックスチューニングは完全なデータ設定で同等のパフォーマンスを得る。
論文 参考訳(メタデータ) (2021-01-01T08:00:36Z) - WARP: Word-level Adversarial ReProgramming [13.08689221166729]
多くのアプリケーションでは、多くのパラメータを複数のタスクで共有できるように、より小さなパラメータセットをチューニングすることが望ましい。
自動プロンプト生成に関する初期の研究を拡張した逆転プログラミングに基づく代替アプローチを提案する。
提案手法は,SST-2およびMNLIデータセット上で,類似のトレーニング可能なパラメータ数で他の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-01T00:41:03Z) - Parameter-Efficient Transfer Learning with Diff Pruning [108.03864629388404]
diff pruningは、プリトレイン・ファインチューンフレームワーク内でパラメータ効率の高い転送学習を可能にするシンプルなアプローチです。
diff pruningで微調整されたモデルは、GLUEベンチマークで完全に微調整されたベースラインのパフォーマンスと一致します。
論文 参考訳(メタデータ) (2020-12-14T12:34:01Z) - Exploring Versatile Generative Language Model Via Parameter-Efficient
Transfer Learning [70.81910984985683]
本稿では,1つの大規模事前学習モデルを用いて,複数のダウンストリーム生成タスクを同時に微調整する効果的な方法を提案する。
5つの多様な言語生成タスクの実験は、各タスクに2-3%のパラメータを追加するだけで、モデル全体の微調整性能を維持または改善できることを示している。
論文 参考訳(メタデータ) (2020-04-08T06:18:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。