論文の概要: AdapterDistillation: Non-Destructive Task Composition with Knowledge
Distillation
- arxiv url: http://arxiv.org/abs/2312.16261v1
- Date: Tue, 26 Dec 2023 07:01:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 20:17:15.831108
- Title: AdapterDistillation: Non-Destructive Task Composition with Knowledge
Distillation
- Title(参考訳): Adapter Distillation:知識蒸留による非破壊的タスク構成
- Authors: Junjie Wang, Yicheng Chen, Wangshu Zhang, Sen Hu, Teng Xu, Jing Zheng
- Abstract要約: 本稿では,AdapterDistillationと呼ばれる2段階の知識蒸留アルゴリズムを提案する。
最初の段階では、ローカルデータを用いてタスク固有の知識を抽出し、学生のアダプタを訓練する。
第2段階では、既存の教師アダプタからの知識を学生アダプタに蒸留し、その推論を支援する。
- 参考スコア(独自算出の注目度): 12.648208238878468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leveraging knowledge from multiple tasks through introducing a small number
of task specific parameters into each transformer layer, also known as
adapters, receives much attention recently. However, adding an extra fusion
layer to implement knowledge composition not only increases the inference time
but also is non-scalable for some applications. To avoid these issues, we
propose a two-stage knowledge distillation algorithm called
AdapterDistillation. In the first stage, we extract task specific knowledge by
using local data to train a student adapter. In the second stage, we distill
the knowledge from the existing teacher adapters into the student adapter to
help its inference. Extensive experiments on frequently asked question
retrieval in task-oriented dialog systems validate the efficiency of
AdapterDistillation. We show that AdapterDistillation outperforms existing
algorithms in terms of accuracy, resource consumption and inference time.
- Abstract(参考訳): アダプタとしても知られる各トランスフォーマー層に少数のタスク固有のパラメータを導入することで、複数のタスクから知識を活用できるようになった。
しかし、知識合成を実装するために追加の融合層を追加することは、推論時間を増加させるだけでなく、一部のアプリケーションではスケールできない。
これらの問題を回避するため,AdapterDistillationと呼ばれる2段階の知識蒸留アルゴリズムを提案する。
第1段階では,ローカルデータを用いて学生アダプタのトレーニングを行い,タスク固有の知識を抽出する。
第2段階では,既存の教員アダプタからの知識を学生アダプタに絞り込み,その推論を支援します。
タスク指向ダイアログシステムにおける頻繁な質問検索に関する広範囲な実験は、AdapterDistillationの有効性を検証する。
本稿では,AdapterDistillationが既存のアルゴリズムよりも精度,資源消費,推論時間で優れていることを示す。
関連論文リスト
- CorDA: Context-Oriented Decomposition Adaptation of Large Language Models [101.81127587760831]
現在のパラメータ効率の高い微調整手法は、学習すべき下流タスクのコンテキストや維持すべき重要な知識のコンテキストを考慮せずに、アダプタを構築する。
我々は、下流タスクや世界知識のコンテキストを指向した重み分解から学習可能なアダプタを構築するコンテキスト指向の分解適応手法であるCorDAを提案する。
我々の知識保存適応は、微調整作業においてLoRAよりも優れた性能を達成するだけでなく、世界の知識の分解を軽減します。
論文 参考訳(メタデータ) (2024-06-07T19:10:35Z) - Auto-selected Knowledge Adapters for Lifelong Person Re-identification [54.42307214981537]
Lifelong Person Re-Identificationは、異なる時間と場所にわたる重複しないデータセットから継続的に学習するシステムを必要とする。
リハーサルのない、あるいはリハーサルベースの既存のアプローチは、依然として破滅的な忘れ込みの問題に悩まされている。
本稿では,知識アダプタを採用した新しいフレームワークであるAdalReIDと,生涯学習のためのパラメータフリー自動選択機構を提案する。
論文 参考訳(メタデータ) (2024-05-29T11:42:02Z) - TSP-Transformer: Task-Specific Prompts Boosted Transformer for Holistic
Scene Understanding [38.40969494998194]
本稿では,TSP変換器と呼ばれるタスク特化プロンプト変換器を提案する。
初期はバニラ変換器、外側はタスク固有のプロンプトエンコーダ、外側はタスク固有のプロンプトが増設される。
NYUD-v2 と PASCAL-Context の実験により,本手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2023-11-06T18:20:02Z) - Vision Transformer Adapters for Generalizable Multitask Learning [61.79647180647685]
一般化可能なタスク親和性を学習する最初のマルチタスク・ビジョン・トランスフォーマー・アダプタを提案する。
我々のアダプタはパラメータ効率の良い方法で複数の高密度視覚タスクを同時に解くことができる。
並行メソッドとは対照的に、新しいタスクやドメインが追加されるたびに、再トレーニングや微調整は不要です。
論文 参考訳(メタデータ) (2023-08-23T18:40:48Z) - I2I: Initializing Adapters with Improvised Knowledge [15.452979531094567]
改善。
連続学習アルゴリズムであるI2LiIは、蒸留により入ってくるタスクに対するアダプタを初期化する。
以前学習したタスク。
I2Iは独立に訓練されたアダプタよりも優れたタスク精度を実現している。
論文 参考訳(メタデータ) (2023-04-04T23:51:48Z) - Cross-Task Knowledge Distillation in Multi-Task Recommendation [41.62428191434233]
マルチタスク学習は、さまざまなタイプのユーザフィードバックを予測するために、現実世界のレコメンデータで広く利用されている。
本稿では,3つの手順からなるクロスタスク知識蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-20T16:15:19Z) - Reciprocal Feature Learning via Explicit and Implicit Tasks in Scene
Text Recognition [60.36540008537054]
本研究では,従来のテキスト認識における文字数カウントという暗黙のタスクを,追加的な注釈コストなしで発掘する。
両タスクの機能を適切に活用するために,2分岐の相反的特徴学習フレームワークを設計する。
7つのベンチマークの実験では、テキスト認識と新しい文字カウントタスクの両方において提案手法の利点が示されている。
論文 参考訳(メタデータ) (2021-05-13T12:27:35Z) - AdapterFusion: Non-Destructive Task Composition for Transfer Learning [104.9639614787314]
逐次微調整とマルチタスク学習は、複数のタスクから知識を取り入れることを目的とした手法である。
本稿では,複数のタスクからの知識を活用する2段階学習アルゴリズムAdapterFusionを提案する。
提案手法は,マルチタスク学習だけでなく,フルチューニングやマルチタスク学習といった従来の戦略よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-01T07:03:42Z) - K-Adapter: Infusing Knowledge into Pre-Trained Models with Adapters [136.75235546149995]
本研究では,BERT や RoBERTa のような大規模事前学習モデルに知識を注入する問題について検討する。
既存のメソッドは通常、知識を注入する際、事前訓練されたモデルの元のパラメータを更新する。
K-Adapterは、事前訓練されたモデルの元のパラメータを固定し、多目的な知識注入モデルの開発を支援するフレームワークである。
論文 参考訳(メタデータ) (2020-02-05T14:30:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。