論文の概要: AdapterHub: A Framework for Adapting Transformers
- arxiv url: http://arxiv.org/abs/2007.07779v3
- Date: Tue, 6 Oct 2020 10:16:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 05:46:38.495100
- Title: AdapterHub: A Framework for Adapting Transformers
- Title(参考訳): AdapterHub: トランスフォーマーを適応するためのフレームワーク
- Authors: Jonas Pfeiffer, Andreas R\"uckl\'e, Clifton Poth, Aishwarya Kamath,
Ivan Vuli\'c, Sebastian Ruder, Kyunghyun Cho, Iryna Gurevych
- Abstract要約: AdapterHubは、さまざまなタスクや言語のためのトレーニング済みアダプタの動的"スティッチイン"を可能にするフレームワークである。
我々のフレームワークは、タスク固有のモデルの共有にスケーラブルで簡単にアクセスできる。
- 参考スコア(独自算出の注目度): 148.6877231725939
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The current modus operandi in NLP involves downloading and fine-tuning
pre-trained models consisting of millions or billions of parameters. Storing
and sharing such large trained models is expensive, slow, and time-consuming,
which impedes progress towards more general and versatile NLP methods that
learn from and for many tasks. Adapters -- small learnt bottleneck layers
inserted within each layer of a pre-trained model -- ameliorate this issue by
avoiding full fine-tuning of the entire model. However, sharing and integrating
adapter layers is not straightforward. We propose AdapterHub, a framework that
allows dynamic "stitching-in" of pre-trained adapters for different tasks and
languages. The framework, built on top of the popular HuggingFace Transformers
library, enables extremely easy and quick adaptations of state-of-the-art
pre-trained models (e.g., BERT, RoBERTa, XLM-R) across tasks and languages.
Downloading, sharing, and training adapters is as seamless as possible using
minimal changes to the training scripts and a specialized infrastructure. Our
framework enables scalable and easy access to sharing of task-specific models,
particularly in low-resource scenarios. AdapterHub includes all recent adapter
architectures and can be found at https://AdapterHub.ml.
- Abstract(参考訳): NLPの現在のモダス・オペランディは、数百万から数十億のパラメータからなる訓練済みモデルのダウンロードと微調整を含む。
このような大規模なトレーニングモデルの収集と共有は高価で遅く、時間を要するため、多くのタスクから学習するより汎用的で汎用的なNLPメソッドへの進歩を妨げる。
事前訓練されたモデルの各レイヤに挿入される小さな学習ボトルネック層であるアダプタは、モデル全体の完全な微調整を回避してこの問題を改善する。
しかし、アダプタレイヤの共有と統合は簡単ではない。
さまざまなタスクや言語に対して,事前学習されたアダプタの動的"ストッチイン"を可能にするフレームワークであるadapterhubを提案する。
人気のあるHuggingFace Transformersライブラリの上に構築されたこのフレームワークは、タスクや言語をまたいだ最先端のトレーニング済みモデル(BERT、RoBERTa、XLM-Rなど)の極めて簡単かつ迅速な適応を可能にする。
アダプタのダウンロード、共有、トレーニングは可能な限りシームレスで、トレーニングスクリプトと特別なインフラストラクチャの変更を最小限にする。
当社のフレームワークは,特に低リソースシナリオにおいて,タスク固有のモデル共有へのスケーラブルで簡単なアクセスを可能にします。
adapterhubには最新のアダプタアーキテクチャがすべて含まれており、https://adapterhub.mlで見ることができる。
関連論文リスト
- MerA: Merging Pretrained Adapters For Few-Shot Learning [71.44422347502409]
モデル融合により,事前学習したアダプタを単一モデルに効率的に組み込むことができるtextbftextttMerging Pretrained Adapters (MerA)を提案する。
2つのPLMの実験では、MerAはシングルアダプタとAdapterFusionの両方と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2023-08-30T12:10:17Z) - AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large
Language Models [119.7093605087114]
大規模なトレーニング済み言語モデルをダウンストリームタスクに微調整するには、数億のパラメータを更新する必要がある。
これにより、各タスクのモデルの重みの大量コピーを格納するためのサービスコストが増大するだけでなく、数発のタスク適応中に不安定を示す。
パラメータや計算コストを2つの重要な手法で増大させることなく、アダプタ容量を改善するための新しいメカニズムを導入する。
論文 参考訳(メタデータ) (2022-05-24T23:41:22Z) - Adaptable Adapters [74.65986170056945]
最先端のNLPモデルには1億から1兆のパラメータが含まれる。
適応アダプタは異なる層と異なる入力データに対して異なるアクティベーション関数を含む。
適応型アダプタは,標準アダプタアーキテクチャを用いてオンパー性能を実現する。
論文 参考訳(メタデータ) (2022-05-03T14:59:27Z) - AdapterBias: Parameter-efficient Token-dependent Representation Shift
for Adapters in NLP Tasks [55.705355299065474]
数百万のパラメータを持つトランスフォーマーベースの事前学習モデルは、大きなストレージを必要とする。
近年のアプローチでは、アダプタをトレーニングすることでこの欠点に対処しているが、それでも比較的多くのパラメータを必要とする。
本研究では,驚くほどシンプルで効果的なアダプタアーキテクチャであるAdapterBiasを提案する。
論文 参考訳(メタデータ) (2022-04-30T16:49:41Z) - AdapterHub Playground: Simple and Flexible Few-Shot Learning with
Adapters [34.86139827292556]
事前訓練された言語モデルのオープンアクセスの普及は、最先端自然言語処理(NLP)研究の民主化につながった。
これにより、NLP以外の人たちでも、そのようなモデルを使用して、特定のユースケースに適応することが可能になります。
本研究では,一行のコードを書かずに事前学習したモデルを活用できるツールを提供することで,このギャップを克服することを目指している。
論文 参考訳(メタデータ) (2021-08-18T11:56:01Z) - Parameter-efficient Multi-task Fine-tuning for Transformers via Shared
Hypernetworks [37.2958914602899]
共有ハイパーネットワークを用いて、すべてのレイヤやタスクのアダプタパラメータを生成できることを示す。
よく知られたGLUEベンチマークの実験では、タスク当たり0.29%のパラメータしか追加することなく、マルチタスク学習のパフォーマンスが改善された。
論文 参考訳(メタデータ) (2021-06-08T16:16:40Z) - AdapterDrop: On the Efficiency of Adapters in Transformers [53.845909603631945]
大規模に事前訓練されたトランスフォーマーモデルは、微調整に計算コストがかかり、推論に時間がかかり、大きなストレージ要求がある。
最近のアプローチでは、より小さなモデルをトレーニングし、モデルサイズを動的に削減し、軽量アダプタをトレーニングすることで、これらの欠点に対処している。
論文 参考訳(メタデータ) (2020-10-22T17:49:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。