論文の概要: Constraint-aware and Ranking-distilled Token Pruning for Efficient
Transformer Inference
- arxiv url: http://arxiv.org/abs/2306.14393v1
- Date: Mon, 26 Jun 2023 03:06:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 15:03:53.872095
- Title: Constraint-aware and Ranking-distilled Token Pruning for Efficient
Transformer Inference
- Title(参考訳): 効率的な変圧器推論のための制約アウェアとランキング蒸留トークンプルーニング
- Authors: Junyan Li, Li Lyna Zhang, Jiahang Xu, Yujing Wang, Shaoguang Yan,
Yunqing Xia, Yuqing Yang, Ting Cao, Hao Sun, Weiwei Deng, Qi Zhang, Mao Yang
- Abstract要約: ToPは、未精製モデルの最終層から初期精製モデルまで有効なトークンランキングを蒸留する、希釈型トークン蒸留技術である。
ToPは、GLUE上での競合精度を達成しつつ、BERTの平均FLOPを8.1倍削減し、Intel CPU上では7.4倍の遅延速度を提供する。
- 参考スコア(独自算出の注目度): 18.308180927492643
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deploying pre-trained transformer models like BERT on downstream tasks in
resource-constrained scenarios is challenging due to their high inference cost,
which grows rapidly with input sequence length. In this work, we propose a
constraint-aware and ranking-distilled token pruning method ToP, which
selectively removes unnecessary tokens as input sequence passes through layers,
allowing the model to improve online inference speed while preserving accuracy.
ToP overcomes the limitation of inaccurate token importance ranking in the
conventional self-attention mechanism through a ranking-distilled token
distillation technique, which distills effective token rankings from the final
layer of unpruned models to early layers of pruned models. Then, ToP introduces
a coarse-to-fine pruning approach that automatically selects the optimal subset
of transformer layers and optimizes token pruning decisions within these layers
through improved $L_0$ regularization. Extensive experiments on GLUE benchmark
and SQuAD tasks demonstrate that ToP outperforms state-of-the-art token pruning
and model compression methods with improved accuracy and speedups. ToP reduces
the average FLOPs of BERT by 8.1x while achieving competitive accuracy on GLUE,
and provides a real latency speedup of up to 7.4x on an Intel CPU.
- Abstract(参考訳): BERTのような事前訓練されたトランスフォーマーモデルを、リソース制約のあるシナリオで下流タスクにデプロイすることは、入力シーケンスの長さによって急速に増加する高い推論コストのために困難である。
本研究では,入力シーケンスが層を通過するときに不要なトークンを選択的に除去し,精度を保ちながらオンライン推論速度を向上する,制約対応型およびランク付け型トークンプルーニング手法ToPを提案する。
ToPは、未熟モデルの最終層から初期熟成モデルの早期層まで有効なトークンランキングを蒸留するランキング蒸留法により、従来の自己保持機構における不正確なトークン重要度ランキングの限界を克服する。
そこでToPは,変換器層の最適部分集合を自動的に選択し,それらの層内でのトークンのプルーニング決定を,改良された$L_0$正規化によって最適化する,粗いプルーニングアプローチを導入した。
GLUEベンチマークとSQuADタスクの大規模な実験により、ToPは最先端のトークンプルーニングおよびモデルの圧縮方法より優れ、精度とスピードアップが向上した。
ToPは、GLUE上での競合精度を達成しつつ、BERTの平均FLOPを8.1倍削減し、Intel CPU上では7.4倍の遅延速度を提供する。
関連論文リスト
- FiRST: Finetuning Router-Selective Transformers for Input-Adaptive Latency Reduction [11.146015814220858]
FIRSTは、層固有のルータを使用して、各入力シーケンスに適応的にトランスフォーマー層のサブセットを選択することで、推論レイテンシを低減するアルゴリズムである。
私たちのアプローチでは、入力適応性は重要であり、タスクによって異なるタスク固有の中間層が隠れた表現を進化させる上で重要な役割を担っています。
論文 参考訳(メタデータ) (2024-10-16T12:45:35Z) - DopQ-ViT: Towards Distribution-Friendly and Outlier-Aware Post-Training Quantization for Vision Transformers [2.0862654518798034]
本稿では,視覚変換器のための分散親和性・外乱性を考慮したポストトレーニング量子化手法を提案する。
DopQ-ViTは、現在の量子化器の非効率性を分析し、TanQと呼ばれる分布に優しいタン量子化器を導入する。
DopQ-ViTは広範囲に検証され、量子化モデルの性能が大幅に向上した。
論文 参考訳(メタデータ) (2024-08-06T16:40:04Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - DPBERT: Efficient Inference for BERT based on Dynamic Planning [11.680840266488884]
既存の入力適応推論手法ではBERTの構造を十分に活用できない。
本稿では,BERTの推論過程を高速化する新しい微調整戦略であるBERTにおける動的計画法を提案する。
提案手法は,98%の精度を維持しながら遅延を75%まで低減し,最先端の入力適応方式に比べて高精度なトレードオフを実現する。
論文 参考訳(メタデータ) (2023-07-26T07:18:50Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Pruning Deep Neural Networks from a Sparsity Perspective [34.22967841734504]
プルーニングは、しばしば、同等のテスト性能を維持しながら、ディープネットワークの冗長な重み、ニューロン、または層を落とすことで達成される。
深層ニューラルネットワークの圧縮可能性を測定するためにPQインデックス(PQI)を提案し,これをスペーサ性インフォームド・アダプティブ・プルーニング(SAP)アルゴリズムの開発に利用する。
論文 参考訳(メタデータ) (2023-02-11T04:52:20Z) - Fine- and Coarse-Granularity Hybrid Self-Attention for Efficient BERT [22.904252855587348]
本稿では, 計算列長を漸進的に短縮することにより, コストを低減できる, 微細で粗い粒度ハイブリッド型自己アテンションを提案する。
FCAは従来の手法に比べて精度とFLOPのトレードオフが著しく優れていることを示す。
論文 参考訳(メタデータ) (2022-03-17T03:33:47Z) - Layer Pruning on Demand with Intermediate CTC [50.509073206630994]
我々はコネクショニスト時間分類(CTC)に基づくASRの訓練と刈り取り方法を提案する。
本稿では,Transformer-CTCモデルをオンデマンドで様々な深さでプルーニングできることを示し,GPU上でのリアルタイム係数を0.005から0.002に改善した。
論文 参考訳(メタデータ) (2021-06-17T02:40:18Z) - Accelerating BERT Inference for Sequence Labeling via Early-Exit [65.7292767360083]
我々は最近成功した早期退避機構を拡張し、シークエンスラベリングタスクに対するPTMの推論を高速化する。
また、異なる層で部分トークンを早期に退避させるトークンレベルの早期退避機構も提案する。
当社のアプローチでは,パフォーマンスの低下を最小限に抑えながら,最大66%~75%の推論コストを削減できる。
論文 参考訳(メタデータ) (2021-05-28T14:39:26Z) - FSR: Accelerating the Inference Process of Transducer-Based Models by
Applying Fast-Skip Regularization [72.9385528828306]
典型的なトランスデューサモデルは、現在の音響状態に条件付き出力シーケンスをデコードします。
予測結果に含まれる空白のトークンの数は、すべてのトークンの90%近くを占める。
本稿では,トランスデューサが予測する空白位置とCTCモデルが予測する空白位置を一致させようとする高速スキップ正規化法を提案する。
論文 参考訳(メタデータ) (2021-04-07T03:15:10Z) - BERT Loses Patience: Fast and Robust Inference with Early Exit [91.26199404912019]
本稿では,事前学習した言語モデルの効率性と堅牢性を向上させるためのプラグイン・アンド・プレイ手法として,Patience-based Early Exitを提案する。
提案手法では,モデルを少ないレイヤで予測できるため,推論効率が向上する。
論文 参考訳(メタデータ) (2020-06-07T13:38:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。