論文の概要: Multi-Head Adapter Routing for Cross-Task Generalization
- arxiv url: http://arxiv.org/abs/2211.03831v3
- Date: Mon, 13 Nov 2023 15:09:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 22:56:15.260764
- Title: Multi-Head Adapter Routing for Cross-Task Generalization
- Title(参考訳): クロスタスク一般化のためのマルチヘッドアダプタルーティング
- Authors: Lucas Caccia, Edoardo Ponti, Zhan Su, Matheus Pereira, Nicolas Le
Roux, Alessandro Sordoni
- Abstract要約: ポリトロポンは、事前訓練と少数ショット適応の両方の間、各タスクのアダプタのサブセットを選択するルーティング関数とアダプタのインベントリを学習する。
複数タスクの事前学習において、数ショットの適応よりもルーティングの方が有益であることがわかった。
- 参考スコア(独自算出の注目度): 56.75667096355806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parameter-efficient fine-tuning (PEFT) for cross-task generalization consists
in pre-training adapters on a multi-task training set before few-shot
adaptation to test tasks. Polytropon [Ponti et al., 2023] ($\texttt{Poly}$)
jointly learns an inventory of adapters and a routing function that selects a
(variable-size) subset of adapters for each task during both pre-training and
few-shot adaptation. In this paper, we investigate the role that adapter
routing plays in its success and design new variants based on our findings.
First, we build on the intuition that finer-grained routing provides more
expressivity. Hence, we propose $\texttt{MHR}$ (Multi-Head Routing) which
combines subsets of adapter parameters and outperforms $\texttt{Poly}$ under a
comparable parameter budget; by only fine-tuning the routing function and not
the adapters ($\texttt{MHR}$-$z$) we achieve competitive performance with
extreme parameter efficiency. Second, we find that
$\texttt{Poly}$/$\texttt{MHR}$ performance is a result of better multi-task
optimization, rather than modular inductive biases that facilitate adapter
recombination and local adaptation, as previously hypothesized. In fact, we
find that $\texttt{MHR}$ exhibits high gradient alignment between training
tasks. We find that routing is most beneficial during multi-task pre-training
rather than during few-shot adaptation and propose $\texttt{MHR}$-$\mu$, which
discards routing and fine-tunes the average of the pre-trained adapters on each
downstream tasks. This establishes $\texttt{MHR}$-$\mu$ as an effective method
for single-adapter fine-tuning. We also show that $\texttt{MHR}$-$\mu$ can be
used as an effective zero-shot transfer method by training the average of the
pre-trained adapters for a few additional steps on the multi-task training set:
this yields gains up to 3% on absolute accuracy w.r.t. the baselines.
- Abstract(参考訳): クロスタスク一般化のためのパラメータ効率細調整(PEFT)は、テストタスクに数発の適応をする前に、マルチタスクトレーニングセットの事前トレーニングアダプタで構成される。
Polytropon [Ponti et al., 2023] ($\texttt{Poly}$) は、事前トレーニングと少数ショット適応の両方の間、各タスクの(可変サイズの)アダプタサブセットを選択するルーティング関数とアダプタの在庫を共同で学習する。
本稿では,アダプタルーティングが成功に果たす役割について検討し,その成果に基づいて新しいバリエーションを設計する。
まず、よりきめ細かいルーティングがより表現力を与えるという直感に基づいて構築する。
そこで我々は,アダプタパラメータのサブセットと$\texttt{poly}$を同等のパラメータ予算で比較する$\texttt{mhr}$ (マルチヘッドルーティング)を提案する。
第二に、$\texttt{Poly}$/$\texttt{MHR}$パフォーマンスは、以前仮説されていたように、アダプタの再結合や局所的な適応を容易にするモジュラー帰納バイアスよりも、より優れたマルチタスク最適化の結果である。
実際、$\texttt{mhr}$はトレーニングタスク間の勾配アライメントが高いことが分かりました。
また,各下流タスクにおいて,事前学習したアダプタの平均を細調整してルーティングを破棄する$\texttt{MHR}$-$\mu$を提案する。
これにより、シングルアダプタファインチューニングの有効な方法として$\texttt{MHR}$-$\mu$が確立される。
また、マルチタスクトレーニングセットのいくつかの追加ステップで事前訓練されたアダプタの平均をトレーニングすることで、有効なゼロショット転送方法として$\texttt{MHR}$-$\mu$が使用できることを示す。
関連論文リスト
- Generative Adapter: Contextualizing Language Models in Parameters with A Single Forward Pass [109.34230156454574]
大規模言語モデル(LM)は一般的に、新しい文脈におけるパフォーマンスを改善するために適応される。
微調整によってトレーニングコストが大幅に増加し、推論オーバーヘッドが増加する。
我々は、新しいコンテキストを低ランクLMアダプタに直接マッピングする効率的で効率的な適応手法である$GenerativeAdapter$を紹介した。
論文 参考訳(メタデータ) (2024-11-08T00:42:47Z) - Hierarchical Recurrent Adapters for Efficient Multi-Task Adaptation of Large Speech Models [12.230087530720652]
本稿では,大規模マルチタスク適応シナリオにおいて,より効率的なアダプタモジュールを提案する。
アダプタは単一の共有コントローラネットワークと複数のタスクレベルのアダプタヘッドで構成されている。
論文 参考訳(メタデータ) (2024-03-25T17:21:56Z) - Prototype-based HyperAdapter for Sample-Efficient Multi-task Tuning [30.251155072822055]
Prototype-based HyperAdapter (PHA)は、アダプタチューニングとハイパーネットワーク上に構築された新しいフレームワークである。
サンプル効率のよい条件付きモジュールを生成するために、インスタンスdenseレトリバーとプロトタイプのハイパーネットワークを導入する。
PHAは、トレーニング可能なパラメータ、ストリームタスクの精度、サンプル効率のトレードオフをより良くすることを示す。
論文 参考訳(メタデータ) (2023-10-18T02:42:17Z) - MerA: Merging Pretrained Adapters For Few-Shot Learning [71.44422347502409]
モデル融合により,事前学習したアダプタを単一モデルに効率的に組み込むことができるtextbftextttMerging Pretrained Adapters (MerA)を提案する。
2つのPLMの実験では、MerAはシングルアダプタとAdapterFusionの両方と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2023-08-30T12:10:17Z) - Vision Transformer Adapters for Generalizable Multitask Learning [61.79647180647685]
一般化可能なタスク親和性を学習する最初のマルチタスク・ビジョン・トランスフォーマー・アダプタを提案する。
我々のアダプタはパラメータ効率の良い方法で複数の高密度視覚タスクを同時に解くことができる。
並行メソッドとは対照的に、新しいタスクやドメインが追加されるたびに、再トレーニングや微調整は不要です。
論文 参考訳(メタデータ) (2023-08-23T18:40:48Z) - Cross-Modal Adapter for Text-Video Retrieval [91.9575196703281]
我々はパラメータ効率の良い微調整のための新しい$textbfCross-Modal Adapterを提示する。
アダプタベースの手法にインスパイアされ、いくつかのパラメータ化レイヤで事前訓練されたモデルを調整します。
MSR-VTT、MSVD、VATEX、ActivityNet、DiDeMoデータセットで完全に微調整されたメソッドと比較して、優れた、あるいは同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-11-17T16:15:30Z) - AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large
Language Models [119.7093605087114]
大規模なトレーニング済み言語モデルをダウンストリームタスクに微調整するには、数億のパラメータを更新する必要がある。
これにより、各タスクのモデルの重みの大量コピーを格納するためのサービスコストが増大するだけでなく、数発のタスク適応中に不安定を示す。
パラメータや計算コストを2つの重要な手法で増大させることなく、アダプタ容量を改善するための新しいメカニズムを導入する。
論文 参考訳(メタデータ) (2022-05-24T23:41:22Z) - Parameter-efficient Multi-task Fine-tuning for Transformers via Shared
Hypernetworks [37.2958914602899]
共有ハイパーネットワークを用いて、すべてのレイヤやタスクのアダプタパラメータを生成できることを示す。
よく知られたGLUEベンチマークの実験では、タスク当たり0.29%のパラメータしか追加することなく、マルチタスク学習のパフォーマンスが改善された。
論文 参考訳(メタデータ) (2021-06-08T16:16:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。