論文の概要: Revisit Parameter-Efficient Transfer Learning: A Two-Stage Paradigm
- arxiv url: http://arxiv.org/abs/2303.07910v1
- Date: Tue, 14 Mar 2023 13:50:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 14:53:36.929121
- Title: Revisit Parameter-Efficient Transfer Learning: A Two-Stage Paradigm
- Title(参考訳): リビジットパラメータ-効率的な伝達学習:2段階パラダイム
- Authors: Hengyuan Zhao, Hao Luo, Yuyang Zhao, Pichao Wang, Fan Wang, Mike Zheng
Shou
- Abstract要約: PETLは、大量のデータに事前訓練された大きなモデルを、タスク固有の限られたデータで下流タスクに効率的に適応することを目的としている。
本稿では,事前学習されたモデルがまずターゲット分布に整列する,新しい2段階のパラダイムを提案する。
提案手法は,19の下流タスクの平均精度で最先端性能を実現する。
- 参考スコア(独自算出の注目度): 21.747744343882392
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parameter-Efficient Transfer Learning (PETL) aims at efficiently adapting
large models pre-trained on massive data to downstream tasks with limited
task-specific data. In view of the practicality of PETL, previous works focus
on tuning a small set of parameters for each downstream task in an end-to-end
manner while rarely considering the task distribution shift issue between the
pre-training task and the downstream task. This paper proposes a novel
two-stage paradigm, where the pre-trained model is first aligned to the target
distribution. Then the task-relevant information is leveraged for effective
adaptation. Specifically, the first stage narrows the task distribution shift
by tuning the scale and shift in the LayerNorm layers. In the second stage, to
efficiently learn the task-relevant information, we propose a Taylor
expansion-based importance score to identify task-relevant channels for the
downstream task and then only tune such a small portion of channels, making the
adaptation to be parameter-efficient. Overall, we present a promising new
direction for PETL, and the proposed paradigm achieves state-of-the-art
performance on the average accuracy of 19 downstream tasks.
- Abstract(参考訳): パラメータ効率変換学習(PETL)は,大規模データに事前訓練された大規模モデルを,タスク固有の限られたデータで下流タスクに効率的に適応することを目的としている。
PETLの実用性の観点からは、従来の研究は、各下流タスクの小さなパラメータセットをエンドツーエンドに調整することに重点を置いており、事前学習タスクと下流タスク間のタスク分散シフト問題をほとんど考慮していない。
本稿では,事前学習モデルがまずターゲット分布に整列する,新しい2段階のパラダイムを提案する。
そして、タスク関連情報を有効適応に活用する。
具体的には、第1ステージは、レイヤノルム層のスケールとシフトを調整してタスク分散シフトを狭める。
第2段階では、タスク関連情報を効率的に学習するために、下流タスクのタスク関連チャンネルを特定し、そのようなチャンネルの一部だけを調整し、パラメータ効率を高めるためにテイラー拡張に基づく重要スコアを提案する。
全体としてPETLの新たな方向性を示すとともに,提案手法は19の下流タスクの平均精度で最先端の性能を達成する。
関連論文リスト
- Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - TAIL: Task-specific Adapters for Imitation Learning with Large
Pretrained Models [32.83440439290383]
TAIL(Task-specific Adapters for Learning)は,新しい制御タスクに効率的に適応するためのフレームワークである。
言語領域におけるパラメータ効率の良い微調整の最近の進歩に触発されて,効率的な微調整技術を探究する。
大規模言語条件の操作タスクにおける実験から,LoRAを用いたTAILは適応後最高の性能が得られることが示唆された。
論文 参考訳(メタデータ) (2023-10-09T17:49:50Z) - Analysis of Task Transferability in Large Pre-trained Classifiers [11.517862889784293]
対象タスクに対して,最終線形層のみを微調整した場合に,分類タスクのパフォーマンスの伝達を解析する。
本稿では,クラス事前分布,ラベル,特徴空間を変更することで,ソース分布(および分類器)を変換するタスク伝達解析手法を提案する。
我々は、最先端の事前訓練モデルを用いて大規模な実証研究を行い、転送可能性の予測における境界と最適化の有効性を実証した。
論文 参考訳(メタデータ) (2023-07-03T08:06:22Z) - Optimal transfer protocol by incremental layer defrosting [66.76153955485584]
トランスファーラーニングは、限られた量のデータでモデルトレーニングを可能にする強力なツールである。
最も単純な転送学習プロトコルは、データリッチなソースタスクで事前訓練されたネットワークの機能抽出層を凍結する。
このプロトコルは、しばしば準最適であり、事前学習されたネットワークの小さな部分を凍結したままにしておくと、最大の性能向上が達成される可能性がある。
論文 参考訳(メタデータ) (2023-03-02T17:32:11Z) - Scalable Weight Reparametrization for Efficient Transfer Learning [10.265713480189486]
効率的な転送学習は、より大きなデータセットでトレーニングされたトレーニング済みのモデルを使用して、下流タスクのためにそれを再利用する。
以前の作業ではパラメータやタスク固有のモジュールが更新され、特に小さなモデルでは計算量が増加した。
本稿では,事前学習したモデルの再パラメータ化の場所を決定するためのポリシネットワークの学習を提案する。
論文 参考訳(メタデータ) (2023-02-26T23:19:11Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Efficient Continual Adaptation for Generative Adversarial Networks [97.20244383723853]
GAN(Generative Adversarial Network)に対する連続学習手法を提案する。
我々のアプローチは、グローバルパラメータとタスク固有のパラメータのセットを学習することに基づいている。
機能マップ変換に基づくアプローチは,最先端のgans手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-06T05:09:37Z) - Parameter-Efficient Transfer Learning with Diff Pruning [108.03864629388404]
diff pruningは、プリトレイン・ファインチューンフレームワーク内でパラメータ効率の高い転送学習を可能にするシンプルなアプローチです。
diff pruningで微調整されたモデルは、GLUEベンチマークで完全に微調整されたベースラインのパフォーマンスと一致します。
論文 参考訳(メタデータ) (2020-12-14T12:34:01Z) - Exploring and Predicting Transferability across NLP Tasks [115.6278033699853]
本研究では,33のNLPタスク間の伝達可能性について検討した。
以上の結果から,転帰学習は従来考えられていたよりも有益であることが示唆された。
また,特定の対象タスクに対して最も転送可能なソースタスクを予測するために使用できるタスク埋め込みも開発した。
論文 参考訳(メタデータ) (2020-05-02T09:39:36Z) - Investigating Transferability in Pretrained Language Models [8.83046338075119]
本稿では,各事前学習層が伝達タスク性能に与える影響を簡易なアブレーション手法で判定する。
この手法により、BERTでは、下流GLUEタスクにおける高いプローブ性能を持つレイヤは、それらのタスクに対して高い精度で必要でも十分でもないことが分かる。
論文 参考訳(メタデータ) (2020-04-30T17:23:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。