論文の概要: Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning
- arxiv url: http://arxiv.org/abs/2205.05638v1
- Date: Wed, 11 May 2022 17:10:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 17:12:41.586186
- Title: Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning
- Title(参考訳): 少ないショットパラメーター効率のファインチューニングは文脈学習より優れ、より正確である
- Authors: Haokun Liu, Derek Tam, Mohammed Muqeeth, Jay Mohta, Tenghao Huang,
Mohit Bansal, Colin Raffel
- Abstract要約: ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
- 参考スコア(独自算出の注目度): 81.3514358542452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-shot in-context learning (ICL) enables pre-trained language models to
perform a previously-unseen task without any gradient-based training by feeding
a small number of training examples as part of the input. ICL incurs
substantial computational, memory, and storage costs because it involves
processing all of the training examples every time a prediction is made.
Parameter-efficient fine-tuning (e.g. adapter modules, prompt tuning, sparse
update methods, etc.) offers an alternative paradigm where a small set of
parameters are trained to enable a model to perform the new task. In this
paper, we rigorously compare few-shot ICL and parameter-efficient fine-tuning
and demonstrate that the latter offers better accuracy as well as dramatically
lower computational costs. Along the way, we introduce a new
parameter-efficient fine-tuning method called (IA)$^3$ that scales activations
by learned vectors, attaining stronger performance while only introducing a
relatively tiny amount of new parameters. We also propose a simple recipe based
on the T0 model called T-Few that can be applied to new tasks without
task-specific tuning or modifications. We validate the effectiveness of T-Few
on completely unseen tasks by applying it to the RAFT benchmark, attaining
super-human performance for the first time and outperforming the
state-of-the-art by 6% absolute. All of the code used in our experiments is
publicly available.
- Abstract(参考訳): few-shot in-context learning (icl)は、事前学習された言語モデルが、少数のトレーニングサンプルを入力の一部として入力することで、勾配ベースのトレーニングなしで、事前学習済みのタスクを実行可能にする。
ICLは、予測が行われるたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整(例えば、アダプタモジュール、プロンプトチューニング、スパース更新メソッドなど)は、モデルの新たなタスク実行を可能にするために、小さなパラメータセットをトレーニングする代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
その過程で,学習ベクトルによるアクティベーションをスケールする(ia)$^3$と呼ばれる新しいパラメータ効率の良い微調整法を導入する。
また、タスク固有のチューニングや修正なしに新しいタスクに適用できるT-Fewと呼ばれるT0モデルに基づく簡単なレシピを提案する。
我々は、RAFTベンチマークに適用し、超人的性能を初めて達成し、最先端の精度を6%向上させることにより、完全に見えないタスクに対するT-Fewの有効性を検証する。
私たちの実験で使われたコードはすべて公開されています。
- 全文 参考訳へのリンク
関連論文リスト
- DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [100.67200801102535]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
我々のフレームワークは、競争力のある下流転送性能を維持しながら、非常に印象的なパラメータ/トレーニング/推論効率を示す。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - LiST: Lite Self-training Makes Efficient Few-shot Learners [91.28065455714018]
LiSTは古典的な微調整法よりも35%改善し、プロンプトチューニングよりも6%改善した。
論文 参考訳(メタデータ) (2021-10-12T18:47:18Z) - Towards a Unified View of Parameter-Efficient Transfer Learning [108.94786930869473]
下流タスクにおける大規模事前学習言語モデルの微調整は、NLPにおけるデファクト学習パラダイムとなっている。
近年の研究では,少数の(外部)パラメータのみを微調整するだけで高い性能が得られるパラメータ効率の伝達学習法が提案されている。
我々は、最先端のパラメータ効率変換学習手法の設計を分解し、それらの相互接続を確立する統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-08T20:22:26Z) - Rectification-based Knowledge Retention for Continual Learning [49.1447478254131]
ディープラーニングモデルは、インクリメンタルな学習環境で訓練されたときに壊滅的な忘れに苦しむ。
タスクインクリメンタル学習問題に対処するための新しいアプローチを提案する。これは、インクリメンタルに到着する新しいタスクに関するモデルをトレーニングすることを含む。
私たちのアプローチは、ゼロショットと非ゼロショットタスクインクリメンタルラーニング設定の両方で使用できます。
論文 参考訳(メタデータ) (2021-03-30T18:11:30Z) - Efficient Feature Transformations for Discriminative and Generative
Continual Learning [98.10425163678082]
継続的学習のための簡易タスク特化機能マップ変換戦略を提案する。
これらは新しいタスクを学習するための強力な柔軟性を提供し、ベースアーキテクチャに最小パラメータを追加することで実現される。
本手法の有効性と効率を,判別(cifar-100およびimagenet-1k)および生成的タスクの一連の実験を用いて実証する。
論文 参考訳(メタデータ) (2021-03-25T01:48:14Z) - Parameter-Efficient Transfer Learning with Diff Pruning [108.03864629388404]
diff pruningは、プリトレイン・ファインチューンフレームワーク内でパラメータ効率の高い転送学習を可能にするシンプルなアプローチです。
diff pruningで微調整されたモデルは、GLUEベンチマークで完全に微調整されたベースラインのパフォーマンスと一致します。
論文 参考訳(メタデータ) (2020-12-14T12:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。