論文の概要: LST: Ladder Side-Tuning for Parameter and Memory Efficient Transfer
Learning
- arxiv url: http://arxiv.org/abs/2206.06522v1
- Date: Mon, 13 Jun 2022 23:51:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-15 13:29:52.939280
- Title: LST: Ladder Side-Tuning for Parameter and Memory Efficient Transfer
Learning
- Title(参考訳): LST:パラメータとメモリ効率向上のためのラダーサイドチューニング
- Authors: Yi-Lin Sung, Jaemin Cho, Mohit Bansal
- Abstract要約: 大規模な事前訓練されたモデルのパラメータセット全体を更新するのはコストがかかる。
PETL技術は、トレーニング済みのバックボーンネットワーク内のパラメータの小さなサブセットを更新して、新しいタスクを実行できる。
本稿では,学習用メモリの必要量を大幅に削減するPETL技術であるLadder Side-Tuning (LST)を提案する。
- 参考スコア(独自算出の注目度): 82.93130407930762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning large pre-trained models on downstream tasks has been adopted in
a variety of domains recently. However, it is costly to update the entire
parameter set of large pre-trained models. Although recently proposed
parameter-efficient transfer learning (PETL) techniques allow updating a small
subset of parameters (e.g. only using 2% of parameters) inside a pre-trained
backbone network for a new task, they only reduce the training memory
requirement by up to 30%. This is because the gradient computation for the
trainable parameters still requires backpropagation through the large
pre-trained backbone model. To address this, we propose Ladder Side-Tuning
(LST), a new PETL technique that reduces training memory requirements by more
substantial amounts. Unlike existing parameter-efficient methods that insert
additional parameters inside backbone networks, we train a ladder side network,
a small and separate network that takes intermediate activations as input via
shortcut connections (ladders) from backbone networks and makes predictions.
LST has significantly lower memory requirements than previous methods, because
it does not require backpropagation through the backbone network, but instead
only through the side network and ladder connections. We evaluate our method
with various models (T5, CLIP-T5) on both NLP (GLUE) and vision-language (VQA,
GQA, NLVR2, MSCOCO) tasks. LST saves 69% of the memory costs to fine-tune the
whole network, while other methods only save 26% of that in similar parameter
usages (hence, 2.7x more memory savings). Moreover, LST achieves higher
accuracy than Adapter and LoRA in a low-memory regime. To further show the
advantage of this better memory efficiency, we also apply LST to larger T5
models (T5-large, T5-3B), attaining better GLUE performance than full
fine-tuning and other PETL methods. The exact same trend also holds in our
experiments on VL tasks.
- Abstract(参考訳): 近年,下流タスクにおける大規模事前学習モデルが,様々な領域で採用されている。
しかし、大きな事前訓練されたモデルのパラメータセット全体を更新するのはコストがかかる。
最近提案されたパラメータ効率変換学習(PETL)技術では、トレーニング済みバックボーンネットワーク内のパラメータの小さなサブセット(パラメータの2%しか使用していない)を新しいタスクに更新することができるが、トレーニングメモリの要件を最大30%削減できる。
これは、トレーニング可能なパラメータの勾配計算が、大きなトレーニング済みのバックボーンモデルによるバックプロパゲーションを必要とするためである。
そこで本研究では,学習時のメモリ要求量を大幅に削減する新しいpetl手法であるlst(ladar side-tuning)を提案する。
バックボーンネットワークに新たなパラメータを挿入する既存のパラメータ効率の手法とは異なり、バックボーンネットワークからのショートカット接続(ラダー)を介して中間的なアクティベーションを入力として取り出し、予測を行う、はしご側ネットワークを訓練する。
LSTは、バックボーンネットワークを通してのバックプロパゲーションを必要とせず、代わりにサイドネットワークとラグ接続によってのみメモリ要求が大幅に低下する。
NLP (GLUE) と視覚言語 (VQA, GQA, NLVR2, MSCOCO) の両方で, 様々なモデル (T5, CLIP-T5) を用いて評価を行った。
LSTはネットワーク全体を微調整するためにメモリコストの69%を節約するが、他の方法は同様のパラメータの使用で26%しか節約しない(従って2.7倍のメモリ節約)。
さらに、LSTは低メモリ状態においてAdapterやLoRAよりも高い精度を達成する。
この優れたメモリ効率の利点をさらに示すため、LSTをより大きなT5モデル(T5-large, T5-3B)に適用し、フルチューニングや他のPETL法よりもGLUE性能が向上した。
全く同じ傾向が、VLタスクの実験にも見られる。
関連論文リスト
- SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis [51.14136878142034]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。
モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。
本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文 参考訳(メタデータ) (2024-03-03T08:25:04Z) - Low-rank Attention Side-Tuning for Parameter-Efficient Fine-Tuning [19.17362588650503]
低ランク・アテンション・サイドチューニング (LAST) は低ランク・アテンション・モジュールのみで構成されるサイドネットワークを訓練する。
LASTは、複数の最適化目標に対して高い並列性を示し、下流タスク適応において非常に効率的である。
論文 参考訳(メタデータ) (2024-02-06T14:03:15Z) - Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - DTL: Disentangled Transfer Learning for Visual Recognition [21.549234013998255]
軽量なコンパクトサイドネットワーク(CSN)を用いて、トレーニング可能なパラメータをバックボーンから切り離すDTL(Disentangled Transfer Learning)を導入する。
提案手法は,大量のGPUメモリ使用量とトレーニング可能なパラメータを削減できるだけでなく,既存のPETL法よりも高い精度で性能を向上する。
論文 参考訳(メタデータ) (2023-12-13T02:51:26Z) - UniPT: Universal Parallel Tuning for Transfer Learning with Efficient
Parameter and Memory [69.33445217944029]
PETLは、トレーニング済みモデルを下流ドメインに適応するための効果的な戦略である。
最近のPETLは、より価値の高いメモリ効率特性に焦点を当てている。
メモリ効率の良い新しいPETL戦略Universal Parallel Tuning (UniPT)を提案する。
論文 参考訳(メタデータ) (2023-08-28T05:38:43Z) - LiST: Lite Self-training Makes Efficient Few-shot Learners [91.28065455714018]
LiSTは古典的な微調整法よりも35%改善し、プロンプトチューニングよりも6%改善した。
論文 参考訳(メタデータ) (2021-10-12T18:47:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。