論文の概要: Multi-Head Adapter Routing for Data-Efficient Fine-Tuning
- arxiv url: http://arxiv.org/abs/2211.03831v1
- Date: Mon, 7 Nov 2022 19:35:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 16:20:56.519978
- Title: Multi-Head Adapter Routing for Data-Efficient Fine-Tuning
- Title(参考訳): データ効率の良いファインチューニングのためのマルチヘッドアダプタルーティング
- Authors: Lucas Caccia, Edoardo Ponti, Lucas Liu, Matheus Pereira, Nicolas Le
Roux, Alessandro Sordoni
- Abstract要約: ファインチューニング手法は、少数の新しいパラメータをトレーニングすることで、大きな言語モデルを下流タスクに適応させることができる。
マルチタスク設定では、PEFTアダプタは、通常、各タスクを個別にトレーニングし、タスク間の転送を阻害する。
ルーティング関数を学習する代わりに、少数ショット適応(Poly-mu)の前に、アダプタの重み付け平均化を行うような表現の少ない変種を提案する。
- 参考スコア(独自算出の注目度): 73.43056519699871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parameter-efficient fine-tuning (PEFT) methods can adapt large language
models to downstream tasks by training a small amount of newly added
parameters. In multi-task settings, PEFT adapters typically train on each task
independently, inhibiting transfer across tasks, or on the concatenation of all
tasks, which can lead to negative interference. To address this, Polytropon
(Ponti et al.) jointly learns an inventory of PEFT adapters and a routing
function to share variable-size sets of adapters across tasks. Subsequently,
adapters can be re-combined and fine-tuned on novel tasks even with limited
data. In this paper, we investigate to what extent the ability to control which
adapters are active for each task leads to sample-efficient generalization.
Thus, we propose less expressive variants where we perform weighted averaging
of the adapters before few-shot adaptation (Poly-mu) instead of learning a
routing function. Moreover, we introduce more expressive variants where
finer-grained task-adapter allocation is learned through a multi-head routing
function (Poly-S). We test these variants on three separate benchmarks for
multi-task learning. We find that Poly-S achieves gains on all three (up to 5.3
points on average) over strong baselines, while incurring a negligible
additional cost in parameter count. In particular, we find that instruction
tuning, where models are fully fine-tuned on natural language instructions for
each task, is inferior to modular methods such as Polytropon and our proposed
variants.
- Abstract(参考訳): パラメータ効率のよい微調整(PEFT)手法は、少数の新しいパラメータをトレーニングすることで、大きな言語モデルを下流タスクに適応させることができる。
マルチタスク設定では、PEFTアダプタは、通常、各タスクを個別にトレーニングし、タスク間の転送を阻害し、または全てのタスクの連結を阻害し、負の干渉を引き起こす。
これを解決するために、Polytropon (Ponti et al.)はPEFTアダプタの在庫と、タスク間で可変サイズのアダプタセットを共有するルーティング関数を共同で学習する。
その後、アダプタを再結合して、限られたデータでも新しいタスクで微調整することができる。
本稿では,各タスクに対してどのアダプタがアクティブかを制御する能力が,サンプル効率の一般化につながるかを検討する。
したがって、ルーティング関数を学習する代わりに、少数ショット適応(Poly-mu)の前に、アダプタの重み付け平均化を行うような表現の少ない変種を提案する。
さらに,マルチヘッドルーティング機能(poly-s)により,より粒度の細かいタスク適応アロケーションが学習される,より表現豊かな変種を導入する。
マルチタスク学習のための3つのベンチマークでこれらの変種をテストする。
この結果から,Poly-S は3点 (平均5.3 点まで) で高いベースラインを上回り,パラメータカウントの無視可能な追加コストが生じることがわかった。
特に,各タスクの自然言語命令に対してモデルを完全に微調整する命令チューニングは,ポリトロポンや提案した変種のようなモジュラー手法に劣ることがわかった。
関連論文リスト
- Generative Adapter: Contextualizing Language Models in Parameters with A Single Forward Pass [109.34230156454574]
大規模言語モデル(LM)は一般的に、新しい文脈におけるパフォーマンスを改善するために適応される。
微調整によってトレーニングコストが大幅に増加し、推論オーバーヘッドが増加する。
我々は、新しいコンテキストを低ランクLMアダプタに直接マッピングする効率的で効率的な適応手法である$GenerativeAdapter$を紹介した。
論文 参考訳(メタデータ) (2024-11-08T00:42:47Z) - Hierarchical Recurrent Adapters for Efficient Multi-Task Adaptation of Large Speech Models [12.230087530720652]
本稿では,大規模マルチタスク適応シナリオにおいて,より効率的なアダプタモジュールを提案する。
アダプタは単一の共有コントローラネットワークと複数のタスクレベルのアダプタヘッドで構成されている。
論文 参考訳(メタデータ) (2024-03-25T17:21:56Z) - Prototype-based HyperAdapter for Sample-Efficient Multi-task Tuning [30.251155072822055]
Prototype-based HyperAdapter (PHA)は、アダプタチューニングとハイパーネットワーク上に構築された新しいフレームワークである。
サンプル効率のよい条件付きモジュールを生成するために、インスタンスdenseレトリバーとプロトタイプのハイパーネットワークを導入する。
PHAは、トレーニング可能なパラメータ、ストリームタスクの精度、サンプル効率のトレードオフをより良くすることを示す。
論文 参考訳(メタデータ) (2023-10-18T02:42:17Z) - MerA: Merging Pretrained Adapters For Few-Shot Learning [71.44422347502409]
モデル融合により,事前学習したアダプタを単一モデルに効率的に組み込むことができるtextbftextttMerging Pretrained Adapters (MerA)を提案する。
2つのPLMの実験では、MerAはシングルアダプタとAdapterFusionの両方と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2023-08-30T12:10:17Z) - Vision Transformer Adapters for Generalizable Multitask Learning [61.79647180647685]
一般化可能なタスク親和性を学習する最初のマルチタスク・ビジョン・トランスフォーマー・アダプタを提案する。
我々のアダプタはパラメータ効率の良い方法で複数の高密度視覚タスクを同時に解くことができる。
並行メソッドとは対照的に、新しいタスクやドメインが追加されるたびに、再トレーニングや微調整は不要です。
論文 参考訳(メタデータ) (2023-08-23T18:40:48Z) - Cross-Modal Adapter for Text-Video Retrieval [91.9575196703281]
我々はパラメータ効率の良い微調整のための新しい$textbfCross-Modal Adapterを提示する。
アダプタベースの手法にインスパイアされ、いくつかのパラメータ化レイヤで事前訓練されたモデルを調整します。
MSR-VTT、MSVD、VATEX、ActivityNet、DiDeMoデータセットで完全に微調整されたメソッドと比較して、優れた、あるいは同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-11-17T16:15:30Z) - AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large
Language Models [119.7093605087114]
大規模なトレーニング済み言語モデルをダウンストリームタスクに微調整するには、数億のパラメータを更新する必要がある。
これにより、各タスクのモデルの重みの大量コピーを格納するためのサービスコストが増大するだけでなく、数発のタスク適応中に不安定を示す。
パラメータや計算コストを2つの重要な手法で増大させることなく、アダプタ容量を改善するための新しいメカニズムを導入する。
論文 参考訳(メタデータ) (2022-05-24T23:41:22Z) - Parameter-efficient Multi-task Fine-tuning for Transformers via Shared
Hypernetworks [37.2958914602899]
共有ハイパーネットワークを用いて、すべてのレイヤやタスクのアダプタパラメータを生成できることを示す。
よく知られたGLUEベンチマークの実験では、タスク当たり0.29%のパラメータしか追加することなく、マルチタスク学習のパフォーマンスが改善された。
論文 参考訳(メタデータ) (2021-06-08T16:16:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。