論文の概要: Parameter-efficient Multi-task Fine-tuning for Transformers via Shared
Hypernetworks
- arxiv url: http://arxiv.org/abs/2106.04489v1
- Date: Tue, 8 Jun 2021 16:16:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 16:01:01.742072
- Title: Parameter-efficient Multi-task Fine-tuning for Transformers via Shared
Hypernetworks
- Title(参考訳): 共有ハイパーネットワークによるトランスフォーマのパラメータ効率の高いマルチタスク微調整
- Authors: Rabeeh Karimi Mahabadi, Sebastian Ruder, Mostafa Dehghani, James
Henderson
- Abstract要約: 共有ハイパーネットワークを用いて、すべてのレイヤやタスクのアダプタパラメータを生成できることを示す。
よく知られたGLUEベンチマークの実験では、タスク当たり0.29%のパラメータしか追加することなく、マルチタスク学習のパフォーマンスが改善された。
- 参考スコア(独自算出の注目度): 37.2958914602899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art parameter-efficient fine-tuning methods rely on introducing
adapter modules between the layers of a pretrained language model. However,
such modules are trained separately for each task and thus do not enable
sharing information across tasks. In this paper, we show that we can learn
adapter parameters for all layers and tasks by generating them using shared
hypernetworks, which condition on task, adapter position, and layer id in a
transformer model. This parameter-efficient multi-task learning framework
allows us to achieve the best of both worlds by sharing knowledge across tasks
via hypernetworks while enabling the model to adapt to each individual task
through task-specific adapters. Experiments on the well-known GLUE benchmark
show improved performance in multi-task learning while adding only 0.29%
parameters per task. We additionally demonstrate substantial performance
improvements in few-shot domain generalization across a variety of tasks. Our
code is publicly available in https://github.com/rabeehk/hyperformer.
- Abstract(参考訳): 最先端パラメータ効率の微調整手法は、事前訓練された言語モデルの層間のアダプタモジュールの導入に依存している。
しかしながら、これらのモジュールはタスク毎に個別にトレーニングされるため、タスク間で情報を共有できない。
本稿では,タスクの条件,アダプタ位置,レイヤIDをトランスフォーマモデルで共有ハイパーネットワークを用いて生成することで,すべてのレイヤやタスクに対するアダプタパラメータを学習できることを示す。
このパラメータ効率のよいマルチタスク学習フレームワークは、ハイパーネットワークを通じてタスク間の知識を共有しながら、タスク固有のアダプタを通じて各タスクに適応することで、両方の世界のベストを達成できます。
よく知られたGLUEベンチマークの実験では、タスク当たり0.29%のパラメータしか追加することなく、マルチタスク学習のパフォーマンスが改善された。
さらに、様々なタスクにまたがる領域の一般化において、大幅なパフォーマンス向上を示す。
私たちのコードはhttps://github.com/rabeehk/hyperformerで公開されています。
関連論文リスト
- HyperLoader: Integrating Hypernetwork-Based LoRA and Adapter Layers into Multi-Task Transformers for Sequence Labelling [5.955463697605461]
マルチタスク設定におけるパラメータ効率の異なる微調整手法を組み合わせたシンプルな手法であるHyperLoaderを提案する。
本手法は,全タスクの構造を捉えることで,マルチタスク学習の利点を組み合わせる。
我々は、HyperLoaderが多くのデータセットで過去のアプローチより優れているという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-07-01T16:00:53Z) - Vision Transformer Adapters for Generalizable Multitask Learning [61.79647180647685]
一般化可能なタスク親和性を学習する最初のマルチタスク・ビジョン・トランスフォーマー・アダプタを提案する。
我々のアダプタはパラメータ効率の良い方法で複数の高密度視覚タスクを同時に解くことができる。
並行メソッドとは対照的に、新しいタスクやドメインが追加されるたびに、再トレーニングや微調整は不要です。
論文 参考訳(メタデータ) (2023-08-23T18:40:48Z) - Multi-Head Adapter Routing for Cross-Task Generalization [56.75667096355806]
ポリトロポンは、事前訓練と少数ショット適応の両方の間、各タスクのアダプタのサブセットを選択するルーティング関数とアダプタのインベントリを学習する。
複数タスクの事前学習において、数ショットの適応よりもルーティングの方が有益であることがわかった。
論文 参考訳(メタデータ) (2022-11-07T19:35:55Z) - Polyhistor: Parameter-Efficient Multi-Task Adaptation for Dense Vision
Tasks [36.34331439747556]
本稿では,複数のタスクにまたがる情報をトレーニング可能なパラメータで共有するために,PolyhistorとPolyhistor-Liteを提案する。
具体的には、Polyhistorは、トレーニング可能なパラメータの10%しか使用せず、最先端技術と比較して、競争精度を達成している。
論文 参考訳(メタデータ) (2022-10-07T00:25:02Z) - AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large
Language Models [119.7093605087114]
大規模なトレーニング済み言語モデルをダウンストリームタスクに微調整するには、数億のパラメータを更新する必要がある。
これにより、各タスクのモデルの重みの大量コピーを格納するためのサービスコストが増大するだけでなく、数発のタスク適応中に不安定を示す。
パラメータや計算コストを2つの重要な手法で増大させることなく、アダプタ容量を改善するための新しいメカニズムを導入する。
論文 参考訳(メタデータ) (2022-05-24T23:41:22Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - HyperGrid: Efficient Multi-Task Transformers with Grid-wise Decomposable
Hyper Projections [96.64246471034195]
我々は,マルチタスク学習を効果的に行う新しいアプローチであるtextscHyperGridを提案する。
本手法は,微調整とマルチタスク学習のギャップを埋めるのに役立つ。
論文 参考訳(メタデータ) (2020-07-12T02:49:16Z) - AdapterFusion: Non-Destructive Task Composition for Transfer Learning [104.9639614787314]
逐次微調整とマルチタスク学習は、複数のタスクから知識を取り入れることを目的とした手法である。
本稿では,複数のタスクからの知識を活用する2段階学習アルゴリズムAdapterFusionを提案する。
提案手法は,マルチタスク学習だけでなく,フルチューニングやマルチタスク学習といった従来の戦略よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-01T07:03:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。