論文の概要: Block-wise Bit-Compression of Transformer-based Models
- arxiv url: http://arxiv.org/abs/2303.09184v2
- Date: Sat, 1 Apr 2023 12:50:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 20:54:06.898980
- Title: Block-wise Bit-Compression of Transformer-based Models
- Title(参考訳): 変圧器モデルにおけるブロックワイズビット圧縮
- Authors: Gaochen Dong, Wei Chen
- Abstract要約: 再学習を伴わない変圧器のブロックワイドビット圧縮法であるBBCTを提案する。
GLUE(General Language Understanding Evaluation)のベンチマークテストの結果,ほとんどのタスクにおいて,BBCTは1%未満の精度低下を達成できることがわかった。
- 参考スコア(独自算出の注目度): 9.77519365079468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the popularity of the recent Transformer-based models represented by
BERT, GPT-3 and ChatGPT, there has been state-of-the-art performance in a range
of natural language processing tasks. However, the massive computations, huge
memory footprint, and thus high latency of Transformer-based models is an
inevitable challenge for the cloud with high real-time requirement. To tackle
the issue, we propose BBCT, a method of block-wise bit-compression for
transformer without retraining. Our method achieves more fine-grained
compression of the whole transformer, including embedding, matrix
multiplication, GELU, softmax, layer normalization, and all the intermediate
results. As a case, we compress an efficient BERT with the method of BBCT. Our
benchmark test results on General Language Understanding Evaluation (GLUE) show
that BBCT can achieve less than 1% accuracy drop in most tasks.
- Abstract(参考訳): BERT、GPT-3、ChatGPTに代表される最近のTransformerベースのモデルの人気により、自然言語処理タスクの分野では最先端のパフォーマンスがある。
しかし、大規模な計算、巨大なメモリフットプリント、そしてトランスフォーマーベースのモデルの高いレイテンシは、リアルタイム要求の高いクラウドにとって避けられない課題である。
この問題に対処するため,変換器のブロックワイドビット圧縮法であるBBCTを提案する。
本手法は, 埋め込み, 行列乗算, ゲル, ソフトマックス, 層正規化, およびすべての中間結果を含む, トランスフォーマー全体のよりきめ細かい圧縮を実現する。
実例では,BBCT の手法を用いて効率的な BERT を圧縮する。
GLUE(General Language Understanding Evaluation)のベンチマークテストの結果,ほとんどのタスクにおいて,BBCTは1%未満の精度低下を達成できることがわかった。
関連論文リスト
- A Survey on Transformer Compression [84.18094368700379]
Transformerアーキテクチャに基づく大規模モデルは、人工知能においてますます重要な役割を担っている。
モデル圧縮法はメモリと計算コストを削減し、実用的なデバイス上でトランスフォーマーモデルを実装するために必要なステップである。
このサーベイは、最近の圧縮手法の包括的なレビューを提供し、トランスフォーマーモデルへの適用に特に焦点をあてている。
論文 参考訳(メタデータ) (2024-02-05T12:16:28Z) - Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z) - Blockwise Compression of Transformer-based Models without Retraining [6.118476907408718]
本稿では,再学習を伴わない変圧器のブロックワイド圧縮フレームワークであるBCTを提案する。
層ワイド圧縮法とは異なり、BCTはブロックワイド操作によりトランス全体のより微細な圧縮を実現する。
BCTは、埋め込み、行列乗算、GELU、Softmax、層正規化、中間結果など、モデルの全コンポーネントを効果的に圧縮する。
論文 参考訳(メタデータ) (2023-04-04T02:55:40Z) - ByteTransformer: A High-Performance Transformer Boosted for
Variable-Length Inputs [6.9136984255301]
可変長入力のために強化された高性能トランスであるByteTransformerを提案する。
ByteTransformerは、PyTorch JIT、XLA、Tencent TurboTransformer、NVIDIA FasterTransformerといった最先端のTransformerフレームワークを上回っている。
論文 参考訳(メタデータ) (2022-10-06T16:57:23Z) - Sparse is Enough in Scaling Transformers [12.561317511514469]
大規模なTransformerモデルは、多くのタスクにおいて印象的な結果をもたらすが、トレーニングや微調整は高価であり、デコードが遅いため、使用と研究が手に入らない。
本稿では,スパース層を用いた次世代トランスフォーマーモデルのファミリーであるScaling Transformerを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:53:46Z) - Prune Once for All: Sparse Pre-Trained Language Models [0.6063525456640462]
そこで本研究では,ウェイトプルーニングとモデル蒸留を統合したスパース事前訓練型トランスフォーマー言語モデルの学習手法を提案する。
これらのスパース事前学習モデルは、疎度パターンを維持しながら、幅広いタスクの学習を伝達するために使用することができる。
圧縮されたスパース事前学習モデルが、その知識を、最小限の精度で5つの下流自然言語タスクに伝達する方法を示す。
論文 参考訳(メタデータ) (2021-11-10T15:52:40Z) - Regularizing Transformers With Deep Probabilistic Layers [62.997667081978825]
本研究では,BERT に深層生成モデルを含めることで,より汎用的なモデルを実現する方法を示す。
トランスフォーマーだけでなく、最も関連性の高いエンコーダデコーダベースのLM, seq2seqでも、注意なく有効であることを示す。
論文 参考訳(メタデータ) (2021-08-23T10:17:02Z) - I-BERT: Integer-only BERT Quantization [78.43819756382103]
トランスフォーマーモデルのための新しい量子化手法であるI-BERTを提案する。
I-BERTは浮動小数点演算なしでエンドツーエンドの整数のみのBERT推論を実行する。
いずれの場合も,I-BERTは全精度ベースラインと同等(かつ若干高い)精度が得られた。
論文 参考訳(メタデータ) (2021-01-05T02:42:58Z) - schuBERT: Optimizing Elements of BERT [22.463154358632472]
我々は、より軽量なモデルを得るため、BERTのアーキテクチャ選択を再考する。
アルゴリズムによって選択された正しい設計次元を減らし,より効率的な光BERTモデルが得られることを示す。
特に、私たちのschuBERTは、3つのエンコーダ層を持つBERTと比較して、GLUEとSQuADデータセットの平均精度を6.6%以上提供しています。
論文 参考訳(メタデータ) (2020-05-09T21:56:04Z) - The Cascade Transformer: an Application for Efficient Answer Sentence
Selection [116.09532365093659]
本稿では,変圧器をベースとしたモデルのカスケード化手法であるカスケード変換器について紹介する。
現状の変圧器モデルと比較すると,提案手法は精度にほとんど影響を与えずに計算量を37%削減する。
論文 参考訳(メタデータ) (2020-05-05T23:32:01Z) - DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference [69.93692147242284]
BERTのような大規模事前訓練型言語モデルは、NLPアプリケーションに大幅な改善をもたらした。
本稿では, BERT推論を高速化するために, 単純だが効果的な手法であるDeeBERTを提案する。
実験の結果、DeeBERTはモデル品質の低下を最小限に抑えながら、最大40%の推論時間を節約できることがわかった。
論文 参考訳(メタデータ) (2020-04-27T17:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。