論文の概要: ScaLearn: Simple and Highly Parameter-Efficient Task Transfer by
Learning to Scale
- arxiv url: http://arxiv.org/abs/2310.01217v2
- Date: Wed, 13 Dec 2023 14:09:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 20:30:21.425769
- Title: ScaLearn: Simple and Highly Parameter-Efficient Task Transfer by
Learning to Scale
- Title(参考訳): ScaLearn: スケール学習によるシンプルかつ高パラメータ効率なタスク転送
- Authors: Markus Frohmann, Carolin Holtermann, Shahed Masoudian, Anne Lauscher,
Navid Rekabsaz
- Abstract要約: MTL (Multi-task Learning) は、非常に実用的な利点を示している。
AdapterFusionのような最近の手法は、問題を2つの異なる段階に構造化する。
ScaLearnは単純かつパラメータ効率の高い2段階MTL法である。
- 参考スコア(独自算出の注目度): 19.737036958820134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-task learning (MTL) has shown considerable practical benefits,
particularly when using pre-trained language models (PLMs). While this is
commonly achieved by simultaneously learning $n$ tasks under a joint
optimization procedure, recent methods such as AdapterFusion structure the
problem into two distinct stages: (i) task learning, where knowledge specific
to a task is encapsulated within sets of parameters (e.g., adapters), and (ii)
transfer, where this already learned knowledge is leveraged for a target task.
This separation of concerns provides numerous benefits, such as promoting
reusability, and addressing cases involving data privacy and societal concerns;
on the flip side, current two-stage MTL methods come with the cost of
introducing a substantial number of additional parameters. In this work, we
address this issue by leveraging the usefulness of linearly scaling the output
representations of source adapters for transfer learning. We introduce
ScaLearn, a simple and highly parameter-efficient two-stage MTL method that
capitalizes on the knowledge of the source tasks by learning a minimal set of
scaling parameters that enable effective knowledge transfer to a target task.
Our experiments on three benchmarks (GLUE, SuperGLUE, and HumSet) show that our
ScaLearn, in addition to facilitating the benefits of two-stage MTL,
consistently outperforms strong baselines with only a small number of transfer
parameters - roughly 0.35% of those of AdapterFusion. Remarkably, we observe
that ScaLearn maintains its strong abilities even when further reducing
parameters through uniform scaling and layer-sharing, achieving similarly
competitive results with only $8$ transfer parameters for each target task. Our
proposed approach thus demonstrates the power of simple scaling as a promise
for more efficient task transfer.
- Abstract(参考訳): マルチタスク学習(MTL)は、特に事前学習言語モデル(PLM)を使用する場合、かなり実用的な利点を示している。
これは、共同最適化手順の下で$n$タスクを同時に学習することで、一般的に達成されるが、AdapterFusionのような最近の手法は、問題を2つの異なる段階に構造化する。
(i)タスク学習、あるタスクに固有の知識が一連のパラメータ(例えばアダプタ)にカプセル化されている場合、及び
(ii)転送、この既に学習済みの知識を対象タスクに活用する。
この懸念の分離は、再利用可能性の促進、データのプライバシと社会的な懸念を伴うケースへの対処など、多くのメリットを提供する。
本稿では,転送学習において,ソースアダプタの出力表現を線形にスケールするの有用性を活用して,この問題に対処する。
ScaLearnは、目的タスクへの効果的な知識伝達を可能にする最小限のスケーリングパラメータ集合を学習することにより、ソースタスクの知識を活用するシンプルで高パラメータ効率の2段階MTL手法である。
3つのベンチマーク(glue,superglue,humset)による実験では,2段階mtlのメリットに加えて,少ない転送パラメータ(adaptorfusionの約0.35%)で強いベースラインを一貫して上回っています。
注目すべきは、ScaLearnは、均一なスケーリングと層共有によってパラメータを減らしても、その強力な能力を維持し、ターゲットタスクごとにたった8ドルの転送パラメータで、同様の競合的な結果が得られることだ。
提案手法は,より効率的なタスク転送の約束として,単純なスケーリングの能力を示す。
関連論文リスト
- 3-in-1: 2D Rotary Adaptation for Efficient Finetuning, Efficient Batching and Composability [6.451743797015637]
大規模言語モデル (LLM) に適応するために, 簡単な2次元回転を用いた新しい手法RoAdを導入する。
RoAdはパラメータ効率が非常に高く、8つの常識推論タスク、4つの算術推論タスクと0.1%のトレーニング可能なパラメータを提供する。
論文 参考訳(メタデータ) (2024-08-28T08:45:29Z) - VMT-Adapter: Parameter-Efficient Transfer Learning for Multi-Task Dense
Scene Understanding [6.816428690763012]
大規模な事前訓練モデルを活用するための標準的なアプローチは、下流タスクのすべてのモデルパラメータを微調整することである。
本稿では,複数のタスクから知識を共有するVMT-Adapterを提案する。
また、ダウンプロジェクションとアッププロジェクションの間で共有パラメータを学習することで、トレーニング可能なパラメータをさらに削減するVMT-Adapter-Liteを提案する。
論文 参考訳(メタデータ) (2023-12-14T08:25:04Z) - $\pi$-Tuning: Transferring Multimodal Foundation Models with Optimal
Multi-task Interpolation [30.551283402200657]
$pi$-Tuningは、視覚、言語、視覚言語タスクのための普遍的なパラメータ効率の伝達学習手法である。
ターゲットの下流タスクを支援するために、同様のタスクから学んだ軽量なタスク固有の専門家のパラメータを集約する。
論文 参考訳(メタデータ) (2023-04-27T17:49:54Z) - When to Use Multi-Task Learning vs Intermediate Fine-Tuning for
Pre-Trained Encoder Transfer Learning [15.39115079099451]
近年,自然言語処理における伝達学習(TL)への関心が高まっている。
微調整中に複数の教師付きデータセットを使用するための3つの主要な戦略が登場した。
GLUEデータセットの包括的解析において,3つのTL手法を比較した。
論文 参考訳(メタデータ) (2022-05-17T06:48:45Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Efficient Feature Transformations for Discriminative and Generative
Continual Learning [98.10425163678082]
継続的学習のための簡易タスク特化機能マップ変換戦略を提案する。
これらは新しいタスクを学習するための強力な柔軟性を提供し、ベースアーキテクチャに最小パラメータを追加することで実現される。
本手法の有効性と効率を,判別(cifar-100およびimagenet-1k)および生成的タスクの一連の実験を用いて実証する。
論文 参考訳(メタデータ) (2021-03-25T01:48:14Z) - Parameter-Efficient Transfer Learning with Diff Pruning [108.03864629388404]
diff pruningは、プリトレイン・ファインチューンフレームワーク内でパラメータ効率の高い転送学習を可能にするシンプルなアプローチです。
diff pruningで微調整されたモデルは、GLUEベンチマークで完全に微調整されたベースラインのパフォーマンスと一致します。
論文 参考訳(メタデータ) (2020-12-14T12:34:01Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z) - Conditionally Adaptive Multi-Task Learning: Improving Transfer Learning
in NLP Using Fewer Parameters & Less Data [5.689320790746046]
マルチタスク学習(MTL)ネットワークは、異なるタスク間で学習知識を伝達するための有望な方法として登場した。
しかし、MTLは、低リソースタスクへの過度な適合、破滅的な忘れ込み、負のタスク転送といった課題に対処しなければならない。
本稿では,新しい条件付アテンション機構とタスク条件付きモジュール群からなるトランスフォーマーアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-09-19T02:04:34Z) - Exploring and Predicting Transferability across NLP Tasks [115.6278033699853]
本研究では,33のNLPタスク間の伝達可能性について検討した。
以上の結果から,転帰学習は従来考えられていたよりも有益であることが示唆された。
また,特定の対象タスクに対して最も転送可能なソースタスクを予測するために使用できるタスク埋め込みも開発した。
論文 参考訳(メタデータ) (2020-05-02T09:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。