論文の概要: Parameter-Efficient Transfer Learning with Diff Pruning
- arxiv url: http://arxiv.org/abs/2012.07463v1
- Date: Mon, 14 Dec 2020 12:34:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-09 01:02:47.895774
- Title: Parameter-Efficient Transfer Learning with Diff Pruning
- Title(参考訳): 差分プラニングを用いたパラメータ効率の高い転送学習
- Authors: Demi Guo, Alexander M. Rush, Yoon Kim
- Abstract要約: diff pruningは、プリトレイン・ファインチューンフレームワーク内でパラメータ効率の高い転送学習を可能にするシンプルなアプローチです。
diff pruningで微調整されたモデルは、GLUEベンチマークで完全に微調整されたベースラインのパフォーマンスと一致します。
- 参考スコア(独自算出の注目度): 108.03864629388404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While task-specific finetuning of pretrained networks has led to significant
empirical advances in NLP, the large size of networks makes finetuning
difficult to deploy in multi-task, memory-constrained settings. We propose diff
pruning as a simple approach to enable parameter-efficient transfer learning
within the pretrain-finetune framework. This approach views finetuning as
learning a task-specific diff vector that is applied on top of the pretrained
parameter vector, which remains fixed and is shared across different tasks. The
diff vector is adaptively pruned during training with a differentiable
approximation to the L0-norm penalty to encourage sparsity. Diff pruning
becomes parameter-efficient as the number of tasks increases, as it requires
storing only the nonzero positions and weights of the diff vector for each
task, while the cost of storing the shared pretrained model remains constant.
It further does not require access to all tasks during training, which makes it
attractive in settings where tasks arrive in stream or the set of tasks is
unknown. We find that models finetuned with diff pruning can match the
performance of fully finetuned baselines on the GLUE benchmark while only
modifying 0.5% of the pretrained model's parameters per task.
- Abstract(参考訳): 予め訓練されたネットワークのタスク固有の微調整は、NLPにおいて顕著な経験的進歩をもたらしたが、ネットワークの大規模化は、マルチタスク、メモリ制約のある設定での微調整を困難にしている。
本稿では,プリトレイン・フィニチューン・フレームワーク内でパラメータ効率の良い転送学習を実現するための簡単な手法としてdiff pruningを提案する。
このアプローチは、微調整を、事前訓練されたパラメータベクトルの上に適用されるタスク固有の差分ベクトルを学習し、異なるタスク間で共有されるものとして見なす。
差分ベクトルは訓練中にL0-ノルムペナルティに微分可能な近似を施して適応的にプルーニングされる。
ディフプルーニングはタスク数が増加するにつれてパラメータ効率が向上し、各タスクの非ゼロ位置と差分ベクトルの重みだけを格納する必要があるが、共有事前学習モデルの保存コストは一定である。
さらに、トレーニング中にすべてのタスクにアクセスする必要はなく、ストリームにタスクが到着したり、タスクセットが不明な設定で魅力的になる。
差分プルーニングで微調整されたモデルはGLUEベンチマークで完全に微調整されたベースラインの性能と一致し,タスク毎の事前学習モデルのパラメータの0.5%しか変更できないことがわかった。
関連論文リスト
- Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis [51.14136878142034]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。
モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。
本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文 参考訳(メタデータ) (2024-03-03T08:25:04Z) - Task Difficulty Aware Parameter Allocation & Regularization for Lifelong
Learning [20.177260510548535]
本稿では,その学習困難度に基づいてパラメータ割り当てと正規化から各タスクに適した戦略を適応的に選択するAllocation & Regularization (PAR)を提案する。
提案手法はスケーラビリティが高く,モデルの冗長性を著しく低減し,モデルの性能を向上する。
論文 参考訳(メタデータ) (2023-04-11T15:38:21Z) - Polyhistor: Parameter-Efficient Multi-Task Adaptation for Dense Vision
Tasks [36.34331439747556]
本稿では,複数のタスクにまたがる情報をトレーニング可能なパラメータで共有するために,PolyhistorとPolyhistor-Liteを提案する。
具体的には、Polyhistorは、トレーニング可能なパラメータの10%しか使用せず、最先端技術と比較して、競争精度を達成している。
論文 参考訳(メタデータ) (2022-10-07T00:25:02Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Instance-Level Task Parameters: A Robust Multi-task Weighting Framework [17.639472693362926]
最近の研究によると、ディープニューラルネットワークは、複数の関連するタスク間で共有表現を学習することで、マルチタスク学習の恩恵を受けている。
トレーニングプロセスは、データセットの各インスタンスに対するタスクの最適な重み付けを規定します。
我々は,SURREALとCityScapesのデータセットを用いて,人間の形状とポーズ推定,深さ推定,セマンティックセグメンテーションタスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-06-11T02:35:42Z) - Parameter-Efficient Transfer from Sequential Behaviors for User Modeling
and Recommendation [111.44445634272235]
本稿では,PeterRecと呼ばれるパラメータ効率のよい移動学習アーキテクチャを提案する。
PeterRecは、トレーニング済みのパラメータを、一連の再学習ニューラルネットワークを注入することで、微調整中に修正されないようにする。
我々は5つの下流タスクにおいて学習したユーザ表現の有効性を示すために、広範囲な実験的アブレーションを行う。
論文 参考訳(メタデータ) (2020-01-13T14:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。