論文の概要: Sparse Distillation: Speeding Up Text Classification by Using Bigger
Models
- arxiv url: http://arxiv.org/abs/2110.08536v1
- Date: Sat, 16 Oct 2021 10:04:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-21 14:31:14.936102
- Title: Sparse Distillation: Speeding Up Text Classification by Using Bigger
Models
- Title(参考訳): スパース蒸留:大きなモデルを用いたテキスト分類の高速化
- Authors: Qinyuan Ye, Madian Khabsa, Mike Lewis, Sinong Wang, Xiang Ren, Aaron
Jaech
- Abstract要約: 最先端の変圧器モデルを軽量の学生モデルに拡張することは、推論時の計算コストを削減する効果的な方法である。
本稿では,学生モデルの設計空間における新しい領域を探索することにより,推論速度の限界をさらに推し進めることを目的とする。
実験の結果,RoBERTa-Large教師の授業成績の97%を6つのテキスト分類タスクのコレクションに保持していることがわかった。
- 参考スコア(独自算出の注目度): 49.8019791766848
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Distilling state-of-the-art transformer models into lightweight student
models is an effective way to reduce computation cost at inference time.
However, the improved inference speed may be still unsatisfactory for certain
time-sensitive applications. In this paper, we aim to further push the limit of
inference speed by exploring a new area in the design space of the student
model. More specifically, we consider distilling a transformer-based text
classifier into a billion-parameter, sparsely-activated student model with a
embedding-averaging architecture. Our experiments show that the student models
retain 97% of the RoBERTa-Large teacher performance on a collection of six text
classification tasks. Meanwhile, the student model achieves up to 600x speed-up
on both GPUs and CPUs, compared to the teacher models. Further investigation
shows that our pipeline is also effective in privacy-preserving and domain
generalization settings.
- Abstract(参考訳): 最先端のトランスフォーマーモデルを軽量な学生モデルに蒸留することは、推論時の計算コストを削減する効果的な方法である。
しかし、改良された推論速度は、特定の時間に敏感なアプリケーションにはまだ満足できないかもしれない。
本稿では,学生モデルの設計空間における新しい領域を探索することにより,推論速度の限界をさらに推し進めることを目的とする。
より具体的には、トランスフォーマーベースのテキスト分類器を10億パラメータに蒸留することを検討する。
実験の結果,6つのテキスト分類タスクの収集において,学生モデルがロベルタ規模の教師性能の97%を保持できることが判明した。
一方、学生モデルは教師モデルと比較して、GPUとCPUの両方で最大600倍のスピードアップを達成する。
さらなる調査により、当社のパイプラインはプライバシ保護とドメインの一般化設定でも有効であることが分かりました。
関連論文リスト
- Optimizing Parking Space Classification: Distilling Ensembles into Lightweight Classifiers [0.0]
画像に基づく駐車空間分類において,教師モデルとして機能する分類器の頑健なアンサンブルを提案する。
これらの教師モデルは、エッジデバイスに直接デプロイ可能な軽量で特殊な学生モデルに蒸留される。
その結果,教師モデルより26倍少ないパラメータを持つ学生モデルは,対象試験データセットの平均精度96.6%を達成した。
論文 参考訳(メタデータ) (2024-10-07T20:29:42Z) - General Compression Framework for Efficient Transformer Object Tracking [26.42022701164278]
本稿では,効率的なトランスオブジェクト追跡のための汎用モデル圧縮フレームワークCompressTrackerを提案する。
本手法は,教師モデルのトランスフォーマー層を異なる段階に分割する新たな段階分割戦略を特徴とする。
当社のフレームワークであるCompressTrackerは構造的に非依存です。
論文 参考訳(メタデータ) (2024-09-26T06:27:15Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Towards a Smaller Student: Capacity Dynamic Distillation for Efficient
Image Retrieval [49.01637233471453]
従来の知識蒸留に基づく効率的な画像検索手法は,高速推論のための学生モデルとして軽量なネットワークを用いる。
本稿では,編集可能な表現能力を持つ学生モデルを構築するための容量動的蒸留フレームワークを提案する。
提案手法は,教師としてのResNet101を前提として,VeRi-776データセットなどの推論速度と精度が優れている。
論文 参考訳(メタデータ) (2023-03-16T11:09:22Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Comparison of Soft and Hard Target RNN-T Distillation for Large-scale
ASR [12.953149757081025]
我々は、最先端(SoTA)自動音声認識(ASR)で広く使われているRNN-Tモデルの知識蒸留に焦点を当てた。
その結果、教師と生徒が大きな教師や小さなストリーミング学生など、異なるアーキテクチャを持つ場合、ハードタルオブジェクトの方が効果的であることが判明した。
重み0.6Bの大規模モデルでは, ソフトターゲット蒸留を用いた雑音学習によるLibriSpeech上での新しいSoTA単語誤り率(WER)を実現する。
論文 参考訳(メタデータ) (2022-10-11T21:32:34Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression
of Pre-Trained Transformers [117.67424061746247]
本稿では,大規模トランスフォーマーをベースとした事前学習モデルの簡易かつ効率的な圧縮手法を提案する。
本稿では,教師の最後のトランスフォーマー層の自己保持モジュールを蒸留することを提案する。
実験結果から, 単言語モデルでは, 学生モデルのパラメータサイズの違いにより, 最先端のベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-02-25T15:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。