論文の概要: Block-wise Bit-Compression of Transformer-based Models
- arxiv url: http://arxiv.org/abs/2303.09184v2
- Date: Sat, 1 Apr 2023 12:50:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 20:54:06.898980
- Title: Block-wise Bit-Compression of Transformer-based Models
- Title(参考訳): 変圧器モデルにおけるブロックワイズビット圧縮
- Authors: Gaochen Dong, Wei Chen
- Abstract要約: 再学習を伴わない変圧器のブロックワイドビット圧縮法であるBBCTを提案する。
GLUE(General Language Understanding Evaluation)のベンチマークテストの結果,ほとんどのタスクにおいて,BBCTは1%未満の精度低下を達成できることがわかった。
- 参考スコア(独自算出の注目度): 9.77519365079468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the popularity of the recent Transformer-based models represented by
BERT, GPT-3 and ChatGPT, there has been state-of-the-art performance in a range
of natural language processing tasks. However, the massive computations, huge
memory footprint, and thus high latency of Transformer-based models is an
inevitable challenge for the cloud with high real-time requirement. To tackle
the issue, we propose BBCT, a method of block-wise bit-compression for
transformer without retraining. Our method achieves more fine-grained
compression of the whole transformer, including embedding, matrix
multiplication, GELU, softmax, layer normalization, and all the intermediate
results. As a case, we compress an efficient BERT with the method of BBCT. Our
benchmark test results on General Language Understanding Evaluation (GLUE) show
that BBCT can achieve less than 1% accuracy drop in most tasks.
- Abstract(参考訳): BERT、GPT-3、ChatGPTに代表される最近のTransformerベースのモデルの人気により、自然言語処理タスクの分野では最先端のパフォーマンスがある。
しかし、大規模な計算、巨大なメモリフットプリント、そしてトランスフォーマーベースのモデルの高いレイテンシは、リアルタイム要求の高いクラウドにとって避けられない課題である。
この問題に対処するため,変換器のブロックワイドビット圧縮法であるBBCTを提案する。
本手法は, 埋め込み, 行列乗算, ゲル, ソフトマックス, 層正規化, およびすべての中間結果を含む, トランスフォーマー全体のよりきめ細かい圧縮を実現する。
実例では,BBCT の手法を用いて効率的な BERT を圧縮する。
GLUE(General Language Understanding Evaluation)のベンチマークテストの結果,ほとんどのタスクにおいて,BBCTは1%未満の精度低下を達成できることがわかった。
関連論文リスト
- STAT: Shrinking Transformers After Training [72.0726371426711]
微調整なしで変圧器モデルを作成するための簡単なアルゴリズムSTATを提案する。
STATは、次の層の重みを補正して精度を保ちながら、注意頭とニューロンの両方をネットワークから排除する。
われわれのアルゴリズムは、BERTを圧縮するのに数分を要し、単一のGPUを用いて7Bパラメータを持つモデルを圧縮するのに3時間もかからない。
論文 参考訳(メタデータ) (2024-05-29T22:59:11Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - Shallow Cross-Encoders for Low-Latency Retrieval [69.06104373460597]
BERTやT5のような大きなトランスフォーマーモデルに基づくクロスエンコーダは計算コストが高く、非常に小さな遅延ウィンドウ内で少数の文書しかスコアできない。
より弱い浅層変圧器モデル(すなわち、層数が限られている変圧器)は、これらの実用的な低レイテンシ設定に制約された場合、実際にフルスケールモデルよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-03-29T15:07:21Z) - A Survey on Transformer Compression [84.18094368700379]
自然言語処理(NLP)とコンピュータビジョン(CV)の領域においてトランスフォーマーは重要な役割を果たす
モデル圧縮法は、Transformerのメモリと計算コストを削減する。
この調査は、Transformerベースのモデルに適用することに焦点を当てた、最近の圧縮方法に関する包括的なレビューを提供する。
論文 参考訳(メタデータ) (2024-02-05T12:16:28Z) - Blockwise Compression of Transformer-based Models without Retraining [6.118476907408718]
本稿では,再学習を伴わない変圧器のブロックワイド圧縮フレームワークであるBCTを提案する。
層ワイド圧縮法とは異なり、BCTはブロックワイド操作によりトランス全体のより微細な圧縮を実現する。
BCTは、埋め込み、行列乗算、GELU、Softmax、層正規化、中間結果など、モデルの全コンポーネントを効果的に圧縮する。
論文 参考訳(メタデータ) (2023-04-04T02:55:40Z) - ByteTransformer: A High-Performance Transformer Boosted for
Variable-Length Inputs [6.9136984255301]
可変長入力のために強化された高性能トランスであるByteTransformerを提案する。
ByteTransformerは、PyTorch JIT、XLA、Tencent TurboTransformer、NVIDIA FasterTransformerといった最先端のTransformerフレームワークを上回っている。
論文 参考訳(メタデータ) (2022-10-06T16:57:23Z) - Sparse is Enough in Scaling Transformers [12.561317511514469]
大規模なTransformerモデルは、多くのタスクにおいて印象的な結果をもたらすが、トレーニングや微調整は高価であり、デコードが遅いため、使用と研究が手に入らない。
本稿では,スパース層を用いた次世代トランスフォーマーモデルのファミリーであるScaling Transformerを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:53:46Z) - Prune Once for All: Sparse Pre-Trained Language Models [0.6063525456640462]
そこで本研究では,ウェイトプルーニングとモデル蒸留を統合したスパース事前訓練型トランスフォーマー言語モデルの学習手法を提案する。
これらのスパース事前学習モデルは、疎度パターンを維持しながら、幅広いタスクの学習を伝達するために使用することができる。
圧縮されたスパース事前学習モデルが、その知識を、最小限の精度で5つの下流自然言語タスクに伝達する方法を示す。
論文 参考訳(メタデータ) (2021-11-10T15:52:40Z) - Regularizing Transformers With Deep Probabilistic Layers [62.997667081978825]
本研究では,BERT に深層生成モデルを含めることで,より汎用的なモデルを実現する方法を示す。
トランスフォーマーだけでなく、最も関連性の高いエンコーダデコーダベースのLM, seq2seqでも、注意なく有効であることを示す。
論文 参考訳(メタデータ) (2021-08-23T10:17:02Z) - schuBERT: Optimizing Elements of BERT [22.463154358632472]
我々は、より軽量なモデルを得るため、BERTのアーキテクチャ選択を再考する。
アルゴリズムによって選択された正しい設計次元を減らし,より効率的な光BERTモデルが得られることを示す。
特に、私たちのschuBERTは、3つのエンコーダ層を持つBERTと比較して、GLUEとSQuADデータセットの平均精度を6.6%以上提供しています。
論文 参考訳(メタデータ) (2020-05-09T21:56:04Z) - The Cascade Transformer: an Application for Efficient Answer Sentence
Selection [116.09532365093659]
本稿では,変圧器をベースとしたモデルのカスケード化手法であるカスケード変換器について紹介する。
現状の変圧器モデルと比較すると,提案手法は精度にほとんど影響を与えずに計算量を37%削減する。
論文 参考訳(メタデータ) (2020-05-05T23:32:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。