論文の概要: One Network, Many Masks: Towards More Parameter-Efficient Transfer
Learning
- arxiv url: http://arxiv.org/abs/2305.17682v2
- Date: Mon, 12 Jun 2023 02:44:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 23:44:41.254071
- Title: One Network, Many Masks: Towards More Parameter-Efficient Transfer
Learning
- Title(参考訳): 1つのネットワーク、多くのマスク:よりパラメーター効率のよい転送学習を目指して
- Authors: Guangtao Zeng, Peiyuan Zhang, Wei Lu
- Abstract要約: PROPETLは、単一のPETLモジュールをレイヤやタスク間で効率的に共有できる新しい方法である。
共有プロトタイプネットワークから異なるサブネットワークを選択するためにバイナリマスクを学習し、PETLモジュールとして異なるレイヤに適用する。
ProPETL は他の PETL 法よりも優れており,パラメータの約10% は後者で要求される。
- 参考スコア(独自算出の注目度): 7.159984655957816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning pre-trained language models for multiple tasks tends to be
expensive in terms of storage. To mitigate this, parameter-efficient transfer
learning (PETL) methods have been proposed to address this issue, but they
still require a significant number of parameters and storage when being applied
to broader ranges of tasks. To achieve even greater storage reduction, we
propose PROPETL, a novel method that enables efficient sharing of a single PETL
module which we call prototype network (e.g., adapter, LoRA, and prefix-tuning)
across layers and tasks. We then learn binary masks to select different
sub-networks from the shared prototype network and apply them as PETL modules
into different layers. We find that the binary masks can determine crucial
information from the network, which is often ignored in previous studies. Our
work can also be seen as a type of pruning method, where we find that
overparameterization also exists in the seemingly small PETL modules. We
evaluate PROPETL on various downstream tasks and show that it can outperform
other PETL methods with approximately 10% of the parameter storage required by
the latter.
- Abstract(参考訳): 複数のタスクのための微調整済み言語モデルは、ストレージの点で高価である傾向がある。
これを軽減するためにパラメータ効率変換学習法 (PETL) が提案されているが, 幅広いタスクに適用するには, かなりの数のパラメータと記憶が必要である。
さらに大きなストレージ削減を実現するために、propetlは、プロトタイプネットワーク(例えば、アダプタ、lora、プレフィックスチューニング)と呼ばれる1つのpetlモジュールを、レイヤとタスク間で効率的に共有できる新しい方法を提案する。
次にバイナリマスクを学び、共有プロトタイプネットワークから異なるサブネットワークを選択し、異なるレイヤにpetlモジュールとして適用します。
二分マスクはネットワークから重要な情報を決定できるが、これは前回の研究では無視されることが多い。
私たちの研究は、一見小さなpetlモジュールにも過剰パラメーターが存在することを発見したpruningメソッドの一種と見なすこともできる。
各種下流タスクにおいて, ProPETL の評価を行い, パラメータ記憶の約10%で他の PETL 手法よりも優れていることを示す。
関連論文リスト
- Prototype-based HyperAdapter for Sample-Efficient Multi-task Tuning [30.251155072822055]
Prototype-based HyperAdapter (PHA)は、アダプタチューニングとハイパーネットワーク上に構築された新しいフレームワークである。
サンプル効率のよい条件付きモジュールを生成するために、インスタンスdenseレトリバーとプロトタイプのハイパーネットワークを導入する。
PHAは、トレーニング可能なパラメータ、ストリームタスクの精度、サンプル効率のトレードオフをより良くすることを示す。
論文 参考訳(メタデータ) (2023-10-18T02:42:17Z) - ScaLearn: Simple and Highly Parameter-Efficient Task Transfer by Learning to Scale [18.396897413970965]
ScaLearnは単純かつパラメータ効率の高い2段階MTL法である。
我々はScaLearnが少数の転送パラメータを持つ強いベースラインを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2023-10-02T14:01:36Z) - UniPT: Universal Parallel Tuning for Transfer Learning with Efficient
Parameter and Memory [69.33445217944029]
PETLは、トレーニング済みモデルを下流ドメインに適応するための効果的な戦略である。
最近のPETLは、より価値の高いメモリ効率特性に焦点を当てている。
メモリ効率の良い新しいPETL戦略Universal Parallel Tuning (UniPT)を提案する。
論文 参考訳(メタデータ) (2023-08-28T05:38:43Z) - LST: Ladder Side-Tuning for Parameter and Memory Efficient Transfer
Learning [82.93130407930762]
大規模な事前訓練されたモデルのパラメータセット全体を更新するのはコストがかかる。
PETL技術は、トレーニング済みのバックボーンネットワーク内のパラメータの小さなサブセットを更新して、新しいタスクを実行できる。
本稿では,学習用メモリの必要量を大幅に削減するPETL技術であるLadder Side-Tuning (LST)を提案する。
論文 参考訳(メタデータ) (2022-06-13T23:51:56Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Kernel Modulation: A Parameter-Efficient Method for Training
Convolutional Neural Networks [19.56633207984127]
本研究は,階層のサブセットではなく,ベースネットワークのすべてのパラメータを適応する,新しいパラメータ効率の高いカーネル変調(KM)手法を提案する。
KMは軽量なタスク特化カーネル変調器を使用し、ベースネットワークパラメータの1.4%しか必要としない。
以上の結果から,KMはTransfer Learningベンチマークの他のパラメータ効率の高い手法よりも最大9%高い精度を達成できることがわかった。
論文 参考訳(メタデータ) (2022-03-29T07:28:50Z) - Training Neural Networks with Fixed Sparse Masks [19.58969772430058]
最近の研究では、トレーニング中にモデルのパラメータの小さなサブセットだけを更新できることが示されている。
モデルのパラメータに固定されたスパースマスクを誘導し、サブセットを選択して複数のイテレーションで更新できることが示される。
論文 参考訳(メタデータ) (2021-11-18T18:06:01Z) - UniPELT: A Unified Framework for Parameter-Efficient Language Model
Tuning [64.638804236566]
本稿では,異なるPELTメソッドをサブモジュールとして組み込んだ統一フレームワークUniPELTを提案する。
注目すべきは、GLUEベンチマークにおいて、UniPELTは、異なる設定で微調整を組み込んだり、性能を上回る、最高のPELTメソッドと比較して、一貫して13パーセントのゲインを達成していることだ。
論文 参考訳(メタデータ) (2021-10-14T17:40:08Z) - Decoupled and Memory-Reinforced Networks: Towards Effective Feature
Learning for One-Step Person Search [65.51181219410763]
歩行者検出と識別サブタスクを1つのネットワークで処理するワンステップ方式を開発しました。
現在のワンステップアプローチには2つの大きな課題があります。
本稿では,これらの問題を解決するために,分離メモリ強化ネットワーク(DMRNet)を提案する。
論文 参考訳(メタデータ) (2021-02-22T06:19:45Z) - Parameter-Efficient Transfer from Sequential Behaviors for User Modeling
and Recommendation [111.44445634272235]
本稿では,PeterRecと呼ばれるパラメータ効率のよい移動学習アーキテクチャを提案する。
PeterRecは、トレーニング済みのパラメータを、一連の再学習ニューラルネットワークを注入することで、微調整中に修正されないようにする。
我々は5つの下流タスクにおいて学習したユーザ表現の有効性を示すために、広範囲な実験的アブレーションを行う。
論文 参考訳(メタデータ) (2020-01-13T14:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。