論文の概要: Pruning Attention Heads of Transformer Models Using A* Search: A Novel
Approach to Compress Big NLP Architectures
- arxiv url: http://arxiv.org/abs/2110.15225v1
- Date: Thu, 28 Oct 2021 15:39:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-29 14:22:37.170534
- Title: Pruning Attention Heads of Transformer Models Using A* Search: A Novel
Approach to Compress Big NLP Architectures
- Title(参考訳): A*探索を用いた変圧器モデルのプルーニングアテンションヘッド:大きなNLPアーキテクチャを圧縮するための新しいアプローチ
- Authors: Archit Parnami, Rahul Singh, Tarun Joshi
- Abstract要約: 冗長なアテンションヘッドを排除してトランスモデルを圧縮するための新しいプルーニングアルゴリズムを提案する。
以上の結果から,BERT変圧器モデルにおける注目ヘッドの最大40%を精度を損なうことなく除去できることが示唆された。
- 参考スコア(独自算出の注目度): 2.8768884210003605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have seen a growing adoption of Transformer models such as BERT
in Natural Language Processing and even in Computer Vision. However, due to the
size, there has been limited adoption of such models within
resource-constrained computing environments This paper proposes novel pruning
algorithms to compress transformer models by eliminating redundant Attention
Heads. We apply the A* search algorithm to obtain a pruned model with minimal
accuracy guarantees. Our results indicate that the method could eliminate as
much as 40% of the attention heads in the BERT transformer model with almost no
loss in accuracy.
- Abstract(参考訳): 近年、自然言語処理やコンピュータビジョンにおいてもbertのようなトランスフォーマーモデルが採用されている。
しかし,資源制約のある計算環境において,そのようなモデルの採用が限られているため,冗長なアテンションヘッドを排除してトランスフォーマーモデルを圧縮するための新しいプルーニングアルゴリズムを提案する。
我々は,A*探索アルゴリズムを適用し,最小限の精度保証付きプルーンドモデルを得る。
以上の結果から,BERT変圧器モデルにおける注目ヘッドの最大40%を精度を損なうことなく除去できる可能性が示唆された。
関連論文リスト
- Adaptive Point Transformer [88.28498667506165]
Adaptive Point Cloud Transformer (AdaPT) は、適応トークン選択機構によって強化された標準PTモデルである。
AdaPTは推論中のトークン数を動的に削減し、大きな点雲の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2024-01-26T13:24:45Z) - Transformer-based approaches to Sentiment Detection [55.41644538483948]
テキスト分類のための4種類の最先端変圧器モデルの性能について検討した。
RoBERTa変換モデルは82.6%のスコアでテストデータセット上で最高のパフォーマンスを示し、品質予測に非常に推奨されている。
論文 参考訳(メタデータ) (2023-03-13T17:12:03Z) - BERT for Long Documents: A Case Study of Automated ICD Coding [0.4148566088629261]
本稿では,BERTなどの既存の変換器モデルを用いて,長文の処理をシンプルかつスケーラブルに行う方法を提案する。
本手法は,ICD符号化におけるトランスフォーマーモデルに対する従来の結果を大幅に改善し,CNN方式よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-04T15:24:19Z) - T4PdM: a Deep Neural Network based on the Transformer Architecture for
Fault Diagnosis of Rotating Machinery [0.0]
本稿では,Transformerアーキテクチャの修正版であるT4PdMに基づいて,自動故障分類器モデルを構築した。
T4PdMは2つのデータセットの総合精度99.98%と98%を達成した。
回転する産業機械の故障の検出・分類におけるモデルの有用性を実証した。
論文 参考訳(メタデータ) (2022-04-07T20:31:45Z) - Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-30T06:32:47Z) - Greenformers: Improving Computation and Memory Efficiency in Transformer
Models via Low-Rank Approximation [3.3576886095389296]
変換器モデルのモデル効率を改善するためのモデル効率手法の集合であるGreenformersを紹介する。
本稿では,ローランク変圧器と呼ばれる変圧器モデルの効率向上を目的とした低ランク分解手法を提案する。
モデルサイズを大幅に削減するため,ローランドトランスフォーマーはデバイス上でのデプロイメントに適していることを示す。
論文 参考訳(メタデータ) (2021-08-24T15:51:40Z) - Efficient pre-training objectives for Transformers [84.64393460397471]
本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。
マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
論文 参考訳(メタデータ) (2021-04-20T00:09:37Z) - Pre-trained Summarization Distillation [121.14806854092672]
近年の分類・回帰作業におけるBERT蒸留の研究は, 直接的知識蒸留による高い性能を示している。
あるいは、機械翻訳の実践者は擬似ラベルを用いて蒸留し、小さなモデルをより大きなモデルの翻訳に基づいて訓練する。
第三に、より単純なアプローチは'shrink and fine-tune' (SFT) であり、より小さな学生モデルにパラメータをコピーして微調整することで、明示的な蒸留を避ける。
論文 参考訳(メタデータ) (2020-10-24T23:15:43Z) - The Cascade Transformer: an Application for Efficient Answer Sentence
Selection [116.09532365093659]
本稿では,変圧器をベースとしたモデルのカスケード化手法であるカスケード変換器について紹介する。
現状の変圧器モデルと比較すると,提案手法は精度にほとんど影響を与えずに計算量を37%削減する。
論文 参考訳(メタデータ) (2020-05-05T23:32:01Z) - Compressing Large-Scale Transformer-Based Models: A Case Study on BERT [41.04066537294312]
事前訓練されたTransformerベースのモデルは、様々な自然言語処理(NLP)タスクに対して最先端のパフォーマンスを達成した。
これらのモデルは数十億のパラメータを持ち、そのため、リソース不足と計算集約が多すぎて、低機能デバイスやアプリケーションに適合しない。
これに対する潜在的な対策の1つはモデル圧縮であり、多くの研究が注目されている。
論文 参考訳(メタデータ) (2020-02-27T09:20:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。