論文の概要: XtremeDistilTransformers: Task Transfer for Task-agnostic Distillation
- arxiv url: http://arxiv.org/abs/2106.04563v1
- Date: Tue, 8 Jun 2021 17:49:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 17:46:06.542854
- Title: XtremeDistilTransformers: Task Transfer for Task-agnostic Distillation
- Title(参考訳): XtremeDistilTransformers:タスク非依存蒸留のためのタスク転送
- Authors: Subhabrata Mukherjee, Ahmed Hassan Awadallah, Jianfeng Gao
- Abstract要約: 我々は新しいタスク非依存蒸留フレームワーク XtremeDistilTransformers を開発した。
本研究は, 蒸留における複数のソースタスク, 拡張資源, モデルアーキテクチャの伝達可能性について検討する。
- 参考スコア(独自算出の注目度): 80.18830380517753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While deep and large pre-trained models are the state-of-the-art for various
natural language processing tasks, their huge size poses significant challenges
for practical uses in resource constrained settings. Recent works in knowledge
distillation propose task-agnostic as well as task-specific methods to compress
these models, with task-specific ones often yielding higher compression rate.
In this work, we develop a new task-agnostic distillation framework
XtremeDistilTransformers that leverages the advantage of task-specific methods
for learning a small universal model that can be applied to arbitrary tasks and
languages. To this end, we study the transferability of several source tasks,
augmentation resources and model architecture for distillation. We evaluate our
model performance on multiple tasks, including the General Language
Understanding Evaluation (GLUE) benchmark, SQuAD question answering dataset and
a massive multi-lingual NER dataset with 41 languages.
- Abstract(参考訳): 深層および大規模事前学習モデルは、様々な自然言語処理タスクの最先端技術である一方、その巨大なサイズは、リソース制約された設定における実用的な利用に重大な課題をもたらす。
知識蒸留における最近の研究は、これらのモデルを圧縮するタスク固有の方法だけでなく、タスクに依存しない手法も提案している。
本研究では,タスク依存型蒸留フレームワークxtremedistiltransformersを開発し,任意のタスクや言語に適用可能な,小さな普遍モデルを学ぶためのタスク特化手法の利点を生かした。
そこで本研究では, 蒸留における複数のソースタスク, 拡張資源, モデルアーキテクチャの伝達可能性について検討する。
我々は,言語理解評価(GLUE)ベンチマーク,SQuAD質問応答データセット,41言語からなる多言語NERデータセットなど,複数のタスクにおけるモデル性能を評価する。
関連論文リスト
- On Giant's Shoulders: Effortless Weak to Strong by Dynamic Logits Fusion [23.63688816017186]
既存の弱強法では、静的な知識伝達比と、複雑な知識を伝達するための単一の小さなモデルを用いることが多い。
本稿では,複数のタスク固有小モデルに対して,それぞれ異なるタスクに特化して動作する動的ロジット融合手法を提案する。
本手法では,シングルタスクシナリオでは96.4%,マルチタスクシナリオでは86.3%のパフォーマンスギャップを埋める。
論文 参考訳(メタデータ) (2024-06-17T03:07:41Z) - SpeechVerse: A Large-scale Generalizable Audio Language Model [38.67969337605572]
SpeechVerseは堅牢なマルチタスクトレーニングおよびカリキュラム学習フレームワークである。
学習可能なパラメータの小さなセットを通じて、事前訓練された音声とテキスト基礎モデルを組み合わせる。
実験により、我々のマルチタスクSpeechVerseモデルは、従来のタスク固有のベースラインよりも11タスク中9タスクの方が優れていることが判明した。
論文 参考訳(メタデータ) (2024-05-14T03:33:31Z) - UniverSLU: Universal Spoken Language Understanding for Diverse Tasks with Natural Language Instructions [64.50935101415776]
我々は,様々な音声言語理解(SLU)タスクを共同で行う単一モデルを構築した。
我々は17のデータセットと9の言語にまたがる12の音声分類とシーケンス生成タスクタイプに対して,1つのマルチタスク学習モデル"UniverSLU"の有効性を実証した。
論文 参考訳(メタデータ) (2023-10-04T17:10:23Z) - Task-Based MoE for Multitask Multilingual Machine Translation [58.20896429151824]
Mixture-of-experts (MoE)アーキテクチャは、多くのアプリケーションで深層モデルのトレーニングにおいて、多様なタスクのための強力な手法であることが証明されている。
本研究では,タスク情報を異なる粒度レベルでMoEモデルに組み込む新しい手法を,動的タスクベースアダプタの共有により設計する。
論文 参考訳(メタデータ) (2023-08-30T05:41:29Z) - FETA: A Benchmark for Few-Sample Task Transfer in Open-Domain Dialogue [70.65782786401257]
本研究は、オープンドメイン対話における少数サンプルタスク転送のベンチマークであるFETAを導入することにより、対話型タスク転送について検討する。
FETAには10タスクと7タスクがアノテートされた2つの基礎的な会話が含まれており、データセット内タスク転送の研究を可能にする。
3つの人気のある言語モデルと3つの学習アルゴリズムを用いて、132のソースターゲットタスクペア間の転送可能性を分析する。
論文 参考訳(メタデータ) (2022-05-12T17:59:00Z) - Attribution-based Task-specific Pruning for Multi-task Language Models [19.106042468549187]
マルチタスク言語モデルは、1つのモデルだけで様々な自然言語理解タスクに優れた性能を示す。
マルチタスク言語モデルのための学習不要なタスク固有プルーニング手法を提案する。
論文 参考訳(メタデータ) (2022-05-09T10:12:08Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Multitask Prompted Training Enables Zero-Shot Task Generalization [70.12770442071657]
本研究では,一般的な自然言語タスクを人間に読まれる入力形式にマッピングするシステムを開発した。
様々なタスクをカバーしたマルチタスクミックス上に,事前学習したエンコーダ・デコーダモデルを微調整する。
このモデルは、いくつかの標準データセット上で強力なゼロショット性能を達成し、しばしば16倍のサイズのモデルより優れている。
論文 参考訳(メタデータ) (2021-10-15T17:08:57Z) - Modelling Latent Skills for Multitask Language Generation [15.126163032403811]
マルチタスク条件言語生成のための生成モデルを提案する。
我々の指導的仮説は、共通の潜在スキルの集合が、多くの異なる言語生成タスクの根底にあるというものである。
このタスク埋め込み空間を潜在変数列列列モデルにおける潜在変数としてインスタンス化する。
論文 参考訳(メタデータ) (2020-02-21T20:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。