論文の概要: SubTuning: Efficient Finetuning for Multi-Task Learning
- arxiv url: http://arxiv.org/abs/2302.06354v2
- Date: Tue, 14 Feb 2023 02:03:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-15 11:38:34.142588
- Title: SubTuning: Efficient Finetuning for Multi-Task Learning
- Title(参考訳): SubTuning: マルチタスク学習のための効率的なファインタニング
- Authors: Gal Kaplun, Andrey Gurevich, Tal Swisa, Mazor David, Shai
Shalev-Shwartz and Eran Malach
- Abstract要約: 事前訓練されたモデルを微調整することは、ニューラルネットワークを新しいタスクで訓練するための標準的なアプローチとなり、高速な収束と性能の向上をもたらす。
本研究では、ネットワークのすべての重みを微調整する代わりに、慎重に選択された層のサブセットのみを訓練し、残りの重みを初期(事前の)値で凍結する、代替的な微調整法について検討する。
実験結果から,emphsubsetファインタニング(あるいはSubTuning)がモデルの完全ファインタニングに匹敵する精度を達成し,トレーニングデータが少ない場合のフルファインタニングの性能を超越することを示した。
- 参考スコア(独自算出の注目度): 26.43027780266698
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Finetuning a pretrained model has become a standard approach for training
neural networks on novel tasks, resulting in fast convergence and improved
performance. In this work, we study an alternative finetuning method, where
instead of finetuning all the weights of the network, we only train a carefully
chosen subset of layers, keeping the rest of the weights frozen at their
initial (pretrained) values. We demonstrate that \emph{subset finetuning} (or
SubTuning) often achieves accuracy comparable to full finetuning of the model,
and even surpasses the performance of full finetuning when training data is
scarce. Therefore, SubTuning allows deploying new tasks at minimal
computational cost, while enjoying the benefits of finetuning the entire model.
This yields a simple and effective method for multi-task learning, where
different tasks do not interfere with one another, and yet share most of the
resources at inference time. We demonstrate the efficiency of SubTuning across
multiple tasks, using different network architectures and pretraining methods.
- Abstract(参考訳): 事前訓練されたモデルを微調整することは、ニューラルネットワークを新しいタスクで訓練するための標準的なアプローチとなり、高速な収束と性能の向上をもたらす。
そこで本研究では,ネットワークの全重みを微調整する代わりに,注意深く選択したレイヤのサブセットのみを訓練し,残りの重みを初期(事前訓練)の値で凍結させる方法を検討した。
我々は,モデルの完全微調整に匹敵する精度をしばしば達成し,訓練データ不足時の完全微調整性能を超過することを示した。
したがって、サブチューニングはモデル全体の微調整の利点を享受しながら、計算コストの最小化で新しいタスクのデプロイを可能にする。
これにより、異なるタスクが互いに干渉せず、推論時にほとんどのリソースを共有するマルチタスク学習のためのシンプルで効果的な方法が得られる。
複数のタスクにまたがるSubTuningの効率を、異なるネットワークアーキテクチャと事前学習手法を用いて実証する。
関連論文リスト
- On the Effectiveness of LayerNorm Tuning for Continual Learning in
Vision Transformers [47.77328392236625]
最新のリハーサルなし連続学習手法は、視覚変換器の特異性を利用してタスク固有のプロンプトを学習する。
そこで、まずタスク固有のパラメータを最適化し、次に推論時間の同じ選択手順で分類器を訓練する。
提案手法は, 計算コストを抑えながら, より優れた結果が得られるか, あるいは, 技術水準に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2023-08-18T15:11:16Z) - Surgical Fine-Tuning Improves Adaptation to Distribution Shifts [114.17184775397067]
分散シフト下での伝達学習の一般的なアプローチは、事前訓練されたモデルの最後の数層を微調整することである。
本稿は, 階層のサブセットを選択的に微調整する手法が, 一般的に用いられている微調整手法と一致し, 性能が良くないことを示す。
論文 参考訳(メタデータ) (2022-10-20T17:59:15Z) - Task-Customized Self-Supervised Pre-training with Scalable Dynamic
Routing [76.78772372631623]
セルフ教師付き事前トレーニングの一般的な実践は、できるだけ多くのデータを使用することである。
しかし、特定のダウンストリームタスクでは、事前トレーニングで無関係なデータを含むと、ダウンストリームのパフォーマンスが低下する可能性がある。
異なるタスクのための事前トレーニングで、異なるダウンストリームタスクにカスタマイズされたデータセットを使用することは、重荷であり、実現不可能である。
論文 参考訳(メタデータ) (2022-05-26T10:49:43Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。
低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-06-16T15:57:51Z) - Investigating Transferability in Pretrained Language Models [8.83046338075119]
本稿では,各事前学習層が伝達タスク性能に与える影響を簡易なアブレーション手法で判定する。
この手法により、BERTでは、下流GLUEタスクにおける高いプローブ性能を持つレイヤは、それらのタスクに対して高い精度で必要でも十分でもないことが分かる。
論文 参考訳(メタデータ) (2020-04-30T17:23:19Z) - Side-Tuning: A Baseline for Network Adaptation via Additive Side
Networks [95.51368472949308]
適応は、トレーニングデータが少ない場合や、ネットワークのプリエンプションをエンコードしたい場合などに有効である。
本稿では,サイドチューニングという簡単な方法を提案する。
論文 参考訳(メタデータ) (2019-12-31T18:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。