論文の概要: Efficient Transformer Knowledge Distillation: A Performance Review
- arxiv url: http://arxiv.org/abs/2311.13657v1
- Date: Wed, 22 Nov 2023 19:19:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 01:36:27.197221
- Title: Efficient Transformer Knowledge Distillation: A Performance Review
- Title(参考訳): 効率的な変圧器知識蒸留:性能レビュー
- Authors: Nathan Brown, Ashton Williamson, Tahj Anderson, Logan Lawrence
- Abstract要約: 本稿では,効率的な注意変換器を用いた知識蒸留によるモデル圧縮の評価を行う。
我々は、長いシーケンス上でNERモデルの性能をトレーニングし、テストするために、新しい長文名前付きエンティティ認識データセット、GONERDを導入する。
多くのタスクにおけるほとんどのモデルにおいて、知識蒸留は低コストで高性能な注意モデルを得るのに有効な方法であることがわかった。
- 参考スコア(独自算出の注目度): 0.11704154007740832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As pretrained transformer language models continue to achieve
state-of-the-art performance, the Natural Language Processing community has
pushed for advances in model compression and efficient attention mechanisms to
address high computational requirements and limited input sequence length.
Despite these separate efforts, no investigation has been done into the
intersection of these two fields. In this work, we provide an evaluation of
model compression via knowledge distillation on efficient attention
transformers. We provide cost-performance trade-offs for the compression of
state-of-the-art efficient attention architectures and the gains made in
performance in comparison to their full attention counterparts. Furthermore, we
introduce a new long-context Named Entity Recognition dataset, GONERD, to train
and test the performance of NER models on long sequences. We find that
distilled efficient attention transformers can preserve a significant amount of
original model performance, preserving up to 98.6% across short-context tasks
(GLUE, SQUAD, CoNLL-2003), up to 94.6% across long-context
Question-and-Answering tasks (HotpotQA, TriviaQA), and up to 98.8% on
long-context Named Entity Recognition (GONERD), while decreasing inference
times by up to 57.8%. We find that, for most models on most tasks, performing
knowledge distillation is an effective method to yield high-performing
efficient attention models with low costs.
- Abstract(参考訳): 事前訓練されたトランスフォーマー言語モデルは、最先端のパフォーマンスを実現し続けており、自然言語処理コミュニティは、高い計算要求と限られた入力シーケンス長に対応するために、モデル圧縮と効率的な注意機構の進歩を推し進めている。
これらの別々の努力にもかかわらず、これらの2つの分野の交点について調査は行われていない。
本研究では,効率的な注意トランスの知識蒸留によるモデル圧縮の評価を行う。
我々は,最先端の高効率アテンションアーキテクチャの圧縮と,その完全アテンションアーキテクチャと比較した場合のパフォーマンス向上のためのコストパフォーマンストレードオフを提供する。
さらに、長いシーケンス上でNERモデルの性能をトレーニングし、テストするために、新しい長文名前付きエンティティ認識データセット、GONERDを導入する。
蒸留処理により,短文タスク(GLUE, SQUAD, CoNLL-2003)で98.6%,長文質問回答タスク(HotpotQA, TriviaQA)で94.6%,長文名前付きエンティティ認識(GONERD)で98.8%,短文タスクで最大98.6%を保存できることがわかった。
多くのタスクにおけるほとんどのモデルにおいて、知識蒸留は低コストで高性能な注意モデルを得るのに有効な方法であることがわかった。
関連論文リスト
- LATTE: Low-Precision Approximate Attention with Head-wise Trainable Threshold for Efficient Transformer [0.0]
我々は,高効率変圧器(LATTE)のための頭部訓練用閾値を用いた高精度近似注意法を提案する。
LATTEは、MHA(Multi-Head Attention)の計算量を削減するために、低精度ドット積を持つ頭部しきい値に基づくフィルタを用いる。
実験の結果, LATTE は NLP と CV の両方のタスクにスムーズに適応でき, 計算コストを大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2024-04-11T07:23:19Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - ERNIE-SPARSE: Learning Hierarchical Efficient Transformer Through
Regularized Self-Attention [48.697458429460184]
情報ボトルネック感度と異なる注目トポロジ間の不整合の2つの要因がスパース変換器の性能に影響を及ぼす可能性がある。
本稿では,ERNIE-Sparseというモデルを提案する。
i) 局所情報とグローバル情報を逐次統一する階層スパース変換器(HST) と、(ii) 注意トポロジの異なる変換器の距離を最小化する自己注意正規化(SAR) の2つの特徴がある。
論文 参考訳(メタデータ) (2022-03-23T08:47:01Z) - DQ-BART: Efficient Sequence-to-Sequence Model via Joint Distillation and
Quantization [75.72231742114951]
BARTやT5のような大規模事前学習シーケンス・ツー・シーケンスモデルは、多くの生成NLPタスクで最先端のパフォーマンスを達成する。
これらのモデルは、大きなメモリ要件と高いレイテンシのため、リソース制約のあるシナリオにおいて大きな課題となる。
そこで,本論文では,教師モデルから学生モデルへの知識の伝達と,学生モデルの定量化と定量化について提案する。
論文 参考訳(メタデータ) (2022-03-21T18:04:25Z) - The NLP Task Effectiveness of Long-Range Transformers [38.46467445144777]
トランスフォーマーモデルは、O(N2)時間と空間の複雑さのため、容易に長い列にスケールできない。
5つの困難なNLPタスクと7つのデータセットに対して、Transformerモデルの7つの変種をベンチマークする。
長い範囲のトランスフォーマーの注意は、コンテンツ選択とクエリ誘導デコードに利点があるが、以前は認識されていなかった欠点が伴っている。
論文 参考訳(メタデータ) (2022-02-16T04:39:35Z) - DoT: An efficient Double Transformer for NLP tasks with tables [3.0079490585515343]
DoTは、問題を2つのサブタスクに分解するダブルトランスフォーマーモデルである。
少ない精度でDoTはトレーニング時間と推論時間を少なくとも50%改善することを示した。
論文 参考訳(メタデータ) (2021-06-01T13:33:53Z) - Efficient pre-training objectives for Transformers [84.64393460397471]
本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。
マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
論文 参考訳(メタデータ) (2021-04-20T00:09:37Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。