論文の概要: AdapterFusion: Non-Destructive Task Composition for Transfer Learning
- arxiv url: http://arxiv.org/abs/2005.00247v3
- Date: Tue, 26 Jan 2021 12:54:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 23:36:01.180728
- Title: AdapterFusion: Non-Destructive Task Composition for Transfer Learning
- Title(参考訳): adapterfusion: 転校学習のための非破壊的タスク構成
- Authors: Jonas Pfeiffer, Aishwarya Kamath, Andreas R\"uckl\'e, Kyunghyun Cho,
Iryna Gurevych
- Abstract要約: 逐次微調整とマルチタスク学習は、複数のタスクから知識を取り入れることを目的とした手法である。
本稿では,複数のタスクからの知識を活用する2段階学習アルゴリズムAdapterFusionを提案する。
提案手法は,マルチタスク学習だけでなく,フルチューニングやマルチタスク学習といった従来の戦略よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 104.9639614787314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequential fine-tuning and multi-task learning are methods aiming to
incorporate knowledge from multiple tasks; however, they suffer from
catastrophic forgetting and difficulties in dataset balancing. To address these
shortcomings, we propose AdapterFusion, a new two stage learning algorithm that
leverages knowledge from multiple tasks. First, in the knowledge extraction
stage we learn task specific parameters called adapters, that encapsulate the
task-specific information. We then combine the adapters in a separate knowledge
composition step. We show that by separating the two stages, i.e., knowledge
extraction and knowledge composition, the classifier can effectively exploit
the representations learned from multiple tasks in a non-destructive manner. We
empirically evaluate AdapterFusion on 16 diverse NLU tasks, and find that it
effectively combines various types of knowledge at different layers of the
model. We show that our approach outperforms traditional strategies such as
full fine-tuning as well as multi-task learning. Our code and adapters are
available at AdapterHub.ml.
- Abstract(参考訳): 逐次的微調整とマルチタスク学習は、複数のタスクからの知識を組み込むことを目的としているが、それらは壊滅的な忘れ込みとデータセットのバランスの困難に苦しむ。
そこで本研究では,複数のタスクからの知識を活用する2段階学習アルゴリズムAdapterFusionを提案する。
まず、知識抽出段階では、タスク固有の情報をカプセル化するアダプタと呼ばれるタスク固有のパラメータを学習する。
次に、アダプタを別の知識合成ステップで組み合わせます。
知識抽出と知識合成という2つの段階を分離することで,複数のタスクから得られた表現を非破壊的に効果的に活用できることを示す。
我々は16種類のNLUタスクに対してAdapterFusionを実験的に評価し、モデルの異なる層における様々な種類の知識を効果的に組み合わせることを発見した。
提案手法は,マルチタスク学習だけでなく,フルチューニングやマルチタスク学習といった従来の戦略よりも優れていることを示す。
コードとアダプタはAdapterHub.mlで利用可能です。
関連論文リスト
- ATLAS: Adapter-Based Multi-Modal Continual Learning with a Two-Stage Learning Strategy [12.150065431702055]
本稿では,経験ベース学習と新規知識拡張からなるマルチモーダル連続学習手法を提案する。
提案手法は,従来のタスクを忘れることによる負の影響を最小限に抑えつつ,上流での表現の分布を拡大する。
論文 参考訳(メタデータ) (2024-10-14T13:29:42Z) - CorDA: Context-Oriented Decomposition Adaptation of Large Language Models for Task-Aware Parameter-Efficient Fine-tuning [101.81127587760831]
現在の微調整手法は、学習すべき下流タスクのコンテキストや、維持すべき重要な知識のコンテキストに広く適用できるアダプタを構築している。
学習可能なタスク対応アダプタを構築するコンテキスト指向の分解適応手法であるCorDAを提案する。
本手法は,知識保存型適応と指導レビュー型適応の2つの選択肢を実現する。
論文 参考訳(メタデータ) (2024-06-07T19:10:35Z) - AdapterDistillation: Non-Destructive Task Composition with Knowledge
Distillation [12.648208238878468]
本稿では,AdapterDistillationと呼ばれる2段階の知識蒸留アルゴリズムを提案する。
最初の段階では、ローカルデータを用いてタスク固有の知識を抽出し、学生のアダプタを訓練する。
第2段階では、既存の教師アダプタからの知識を学生アダプタに蒸留し、その推論を支援する。
論文 参考訳(メタデータ) (2023-12-26T07:01:00Z) - GraphAdapter: Tuning Vision-Language Models With Dual Knowledge Graph [63.81641578763094]
適応型効率的な伝達学習(ETL)は視覚言語モデル(VLM)のチューニングにおいて優れた性能を示した
本稿では,2つのモーダリティ構造知識を明示的にモデル化し,テキストアダプティブを実行する,GraphAdapterと呼ばれる効果的なアダプタスタイルチューニング戦略を提案する。
特に、二重知識グラフは、2つのサブグラフ、すなわちテキスト知識のサブグラフと視覚知識のサブグラフで成り立っており、ノードとエッジはそれぞれ2つのモダリティのセマンティクス/クラスとそれらの相関を表す。
論文 参考訳(メタデータ) (2023-09-24T12:56:40Z) - Pre-training Multi-task Contrastive Learning Models for Scientific
Literature Understanding [52.723297744257536]
事前学習言語モデル(LM)は、科学文献理解タスクにおいて有効であることを示す。
文献理解タスク間の共通知識共有を容易にするために,マルチタスクのコントラスト学習フレームワークであるSciMultを提案する。
論文 参考訳(メタデータ) (2023-05-23T16:47:22Z) - I2I: Initializing Adapters with Improvised Knowledge [15.452979531094567]
改善。
連続学習アルゴリズムであるI2LiIは、蒸留により入ってくるタスクに対するアダプタを初期化する。
以前学習したタスク。
I2Iは独立に訓練されたアダプタよりも優れたタスク精度を実現している。
論文 参考訳(メタデータ) (2023-04-04T23:51:48Z) - Cross-Task Knowledge Distillation in Multi-Task Recommendation [41.62428191434233]
マルチタスク学習は、さまざまなタイプのユーザフィードバックを予測するために、現実世界のレコメンデータで広く利用されている。
本稿では,3つの手順からなるクロスタスク知識蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-20T16:15:19Z) - Parameter-efficient Multi-task Fine-tuning for Transformers via Shared
Hypernetworks [37.2958914602899]
共有ハイパーネットワークを用いて、すべてのレイヤやタスクのアダプタパラメータを生成できることを示す。
よく知られたGLUEベンチマークの実験では、タスク当たり0.29%のパラメータしか追加することなく、マルチタスク学習のパフォーマンスが改善された。
論文 参考訳(メタデータ) (2021-06-08T16:16:40Z) - Adversarial Continual Learning [99.56738010842301]
本稿では,タスク不変およびタスク特化機能に対する不整合表現を学習するハイブリッド連続学習フレームワークを提案する。
本モデルでは,タスク固有のスキルの忘れを防止するためにアーキテクチャの成長と,共有スキルを維持するための経験的リプレイアプローチを組み合わせる。
論文 参考訳(メタデータ) (2020-03-21T02:08:17Z) - K-Adapter: Infusing Knowledge into Pre-Trained Models with Adapters [136.75235546149995]
本研究では,BERT や RoBERTa のような大規模事前学習モデルに知識を注入する問題について検討する。
既存のメソッドは通常、知識を注入する際、事前訓練されたモデルの元のパラメータを更新する。
K-Adapterは、事前訓練されたモデルの元のパラメータを固定し、多目的な知識注入モデルの開発を支援するフレームワークである。
論文 参考訳(メタデータ) (2020-02-05T14:30:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。