論文の概要: Attribution-based Task-specific Pruning for Multi-task Language Models
- arxiv url: http://arxiv.org/abs/2205.04157v1
- Date: Mon, 9 May 2022 10:12:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-10 13:52:45.569608
- Title: Attribution-based Task-specific Pruning for Multi-task Language Models
- Title(参考訳): マルチタスク言語モデルに対する属性ベースタスク固有プルーニング
- Authors: Nakyeong Yang, Yunah Jang, Hwanhee Lee, Seohyeong Jung, Kyomin Jung
- Abstract要約: マルチタスク言語モデルは、1つのモデルだけで様々な自然言語理解タスクに優れた性能を示す。
マルチタスク言語モデルのための学習不要なタスク固有プルーニング手法を提案する。
- 参考スコア(独自算出の注目度): 19.106042468549187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-task language models show outstanding performance for various natural
language understanding tasks with only a single model. However, these language
models inevitably utilize unnecessary large-scale model parameters, even when
they are used for only a specific task. In this paper, we propose a novel
training-free task-specific pruning method for multi-task language models.
Specifically, we utilize an attribution method to compute the importance of
each neuron for performing a specific task. Then, we prune task-specifically
unimportant neurons using this computed importance. Experimental results on the
six widely-used datasets show that our proposed pruning method significantly
outperforms baseline compression methods. Also, we extend our method to be
applicable in a low-resource setting, where the number of labeled datasets is
insufficient.
- Abstract(参考訳): マルチタスク言語モデルは、1つのモデルだけで様々な自然言語理解タスクに優れた性能を示す。
しかし、これらの言語モデルは、特定のタスクにのみ使用される場合でも、必然的に不要な大規模モデルパラメータを利用する。
本稿では,マルチタスク言語モデルのためのトレーニングフリーなタスク特定プルーニング手法を提案する。
具体的には、特定のタスクを実行するために各ニューロンの重要性を計算するために属性法を用いる。
そして、この計算重要度を用いてタスク特異的に重要でないニューロンをプルークする。
6種類のデータセットを用いた実験の結果,提案手法がベースライン圧縮法を有意に上回っていることがわかった。
また,ラベル付きデータセットの数が不十分な低リソース設定に適用できるように拡張した。
関連論文リスト
- On Giant's Shoulders: Effortless Weak to Strong by Dynamic Logits Fusion [23.63688816017186]
既存の弱強法では、静的な知識伝達比と、複雑な知識を伝達するための単一の小さなモデルを用いることが多い。
本稿では,複数のタスク固有小モデルに対して,それぞれ異なるタスクに特化して動作する動的ロジット融合手法を提案する。
本手法では,シングルタスクシナリオでは96.4%,マルチタスクシナリオでは86.3%のパフォーマンスギャップを埋める。
論文 参考訳(メタデータ) (2024-06-17T03:07:41Z) - UniverSLU: Universal Spoken Language Understanding for Diverse Tasks with Natural Language Instructions [64.50935101415776]
我々は,様々な音声言語理解(SLU)タスクを共同で行う単一モデルを構築した。
我々は17のデータセットと9の言語にまたがる12の音声分類とシーケンス生成タスクタイプに対して,1つのマルチタスク学習モデル"UniverSLU"の有効性を実証した。
論文 参考訳(メタデータ) (2023-10-04T17:10:23Z) - DiSparse: Disentangled Sparsification for Multitask Model Compression [92.84435347164435]
DiSparseは、シンプルで効果的で、第一級のマルチタスクプルーニングとスパーストレーニングスキームである。
実験の結果,様々な設定や設定において優れた性能を示した。
論文 参考訳(メタデータ) (2022-06-09T17:57:46Z) - Multi Task Learning For Zero Shot Performance Prediction of Multilingual
Models [12.759281077118567]
多言語トランスフォーマーに基づく言語モデルは、言語間のゼロショット転送において驚くほど効果的であることが観察されている。
我々は,タスク上のゼロショット性能をマルチタスク学習問題としてモデル化することにより,タスク上のゼロショット性能を予測するための既存の手法を構築した。
論文 参考訳(メタデータ) (2022-05-12T14:47:03Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Multitask Prompted Training Enables Zero-Shot Task Generalization [70.12770442071657]
本研究では,一般的な自然言語タスクを人間に読まれる入力形式にマッピングするシステムを開発した。
様々なタスクをカバーしたマルチタスクミックス上に,事前学習したエンコーダ・デコーダモデルを微調整する。
このモデルは、いくつかの標準データセット上で強力なゼロショット性能を達成し、しばしば16倍のサイズのモデルより優れている。
論文 参考訳(メタデータ) (2021-10-15T17:08:57Z) - XtremeDistilTransformers: Task Transfer for Task-agnostic Distillation [80.18830380517753]
我々は新しいタスク非依存蒸留フレームワーク XtremeDistilTransformers を開発した。
本研究は, 蒸留における複数のソースタスク, 拡張資源, モデルアーキテクチャの伝達可能性について検討する。
論文 参考訳(メタデータ) (2021-06-08T17:49:33Z) - Exploring Versatile Generative Language Model Via Parameter-Efficient
Transfer Learning [70.81910984985683]
本稿では,1つの大規模事前学習モデルを用いて,複数のダウンストリーム生成タスクを同時に微調整する効果的な方法を提案する。
5つの多様な言語生成タスクの実験は、各タスクに2-3%のパラメータを追加するだけで、モデル全体の微調整性能を維持または改善できることを示している。
論文 参考訳(メタデータ) (2020-04-08T06:18:44Z) - Modelling Latent Skills for Multitask Language Generation [15.126163032403811]
マルチタスク条件言語生成のための生成モデルを提案する。
我々の指導的仮説は、共通の潜在スキルの集合が、多くの異なる言語生成タスクの根底にあるというものである。
このタスク埋め込み空間を潜在変数列列列モデルにおける潜在変数としてインスタンス化する。
論文 参考訳(メタデータ) (2020-02-21T20:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。