論文の概要: PGB: One-Shot Pruning for BERT via Weight Grouping and Permutation
- arxiv url: http://arxiv.org/abs/2502.03984v1
- Date: Thu, 06 Feb 2025 11:34:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:34:10.692458
- Title: PGB: One-Shot Pruning for BERT via Weight Grouping and Permutation
- Title(参考訳): PGB: 軽量グルーピングと置換によるBERTのワンショットプルーニング
- Authors: Hyemin Lim, Jaeyeon Lee, Dong-Wan Choi,
- Abstract要約: 本稿では,BERT$(PGB)に対する$textitPermutation and Groupingと呼ばれる,BERTのための新しい半構造化ワンショットプルーニング手法を提案する。
PGBは、各重みの重要な群を置換により同定し、他の重み全てを多面的注意層とフィードフォワード層の両方の構造として同定する。
BERT$_textBASE$の実験結果は、PGBが計算コストと精度の保存の観点から最先端の構造化プルーニング法より優れていることを示した。
- 参考スコア(独自算出の注目度): 5.888489927450056
- License:
- Abstract: Large pretrained language models such as BERT suffer from slow inference and high memory usage, due to their huge size. Recent approaches to compressing BERT rely on iterative pruning and knowledge distillation, which, however, are often too complicated and computationally intensive. This paper proposes a novel semi-structured one-shot pruning method for BERT, called $\textit{Permutation and Grouping for BERT}$ (PGB), which achieves high compression efficiency and sparsity while preserving accuracy. To this end, PGB identifies important groups of individual weights by permutation and prunes all other weights as a structure in both multi-head attention and feed-forward layers. Furthermore, if no important group is formed in a particular layer, PGB drops the entire layer to produce an even more compact model. Our experimental results on BERT$_{\text{BASE}}$ demonstrate that PGB outperforms the state-of-the-art structured pruning methods in terms of computational cost and accuracy preservation.
- Abstract(参考訳): BERTのような大規模な事前訓練された言語モデルは、大きなサイズのため、推論が遅く、高いメモリ使用率に悩まされる。
BERTを圧縮する最近のアプローチは、反復的な刈り込みと知識の蒸留に依存しており、これはしばしば複雑で計算集約的である。
本稿では,BERT の半構造化一発プルーニング手法である $\textit{Permutation and Grouping for BERT}$ (PGB) を提案する。
この目的のために、PGBは各重みの重要群を置換により同定し、他の重みを多面的注意層とフィードフォワード層の両方の構造としてプーンする。
さらに、特定の層に重要な群が存在しない場合、PGBは層全体を落とし、さらにコンパクトなモデルを生成する。
BERT$_{\text{BASE}}$の実験結果は、PGBが計算コストと精度保存の点で最先端の構造化プルーニング法より優れていることを示した。
関連論文リスト
- Breaking the Token Barrier: Chunking and Convolution for Efficient Long
Text Classification with BERT [0.0]
変換器ベースのモデル、特にBERTは様々なNLPタスクの研究を推進している。
BERTモデルは512トークンの最大トークン制限に制限されているため、長い入力で実際に適用するのは簡単ではない。
本稿では,任意の事前学習したモデルを任意に長文で推論できるような,比較的単純なBanilla BERTアーキテクチャであるChunkBERTを提案する。
論文 参考訳(メタデータ) (2023-10-31T15:41:08Z) - Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。
Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。
多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文 参考訳(メタデータ) (2022-05-23T02:43:45Z) - Exploring Extreme Parameter Compression for Pre-trained Language Models [45.80044281531393]
本研究は,事前学習言語モデル(PLM)の圧縮率の増大について検討する。
圧縮時の効率と効率を改善するために, 2つの分解・再構成プロトコルを提案する。
小さなバージョンではBERTベースが96.7%、エンコーダパラメータが1/48、推論が2.7倍高速になる。
論文 参考訳(メタデータ) (2022-05-20T09:16:55Z) - Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。
本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文 参考訳(メタデータ) (2022-03-21T02:11:35Z) - The Optimal BERT Surgeon: Scalable and Accurate Second-Order Pruning for
Large Language Models [23.12519490211362]
本稿では,BERTモデルの文脈における非構造重み打ちの精度圧縮トレードオフについて検討する。
近似2次情報に基づく効率的かつ正確な重量刈り法であるO-BERT-S(Optimal BERT Surgeon)を提案する。
本研究では,トランスフォーマーモデルに対する圧縮手法の複合化において,このプルーニング法が与える影響について検討する。
論文 参考訳(メタデータ) (2022-03-14T16:40:31Z) - BiBERT: Accurate Fully Binarized BERT [69.35727280997617]
BiBERTは、パフォーマンスボトルネックを取り除くために、正確に2項化されたBERTである。
提案手法は,FLOPとモデルサイズで56.3回,31.2回節約できる。
論文 参考訳(メタデータ) (2022-03-12T09:46:13Z) - Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-30T06:32:47Z) - ROSITA: Refined BERT cOmpreSsion with InTegrAted techniques [10.983311133796745]
BERTファミリーの事前訓練された言語モデルは、幅広いNLPタスクで最先端のものを定義しています。
BERTベースのモデルの性能は、主に大量のパラメータによって駆動され、リソース制限されたシナリオへの適用を妨げる。
我々は,3種類の圧縮手法(重み付きプルーニング,低ランク分解,知識蒸留)を導入し,モデルアーキテクチャに関する様々な設計について検討する。
Refined BERT cOmpreSsion with InTegrAted Technique(ROSITA)と呼ばれる私たちの最高の圧縮モデルは、7.5倍小さいです。
論文 参考訳(メタデータ) (2021-03-21T11:33:33Z) - BinaryBERT: Pushing the Limit of BERT Quantization [74.65543496761553]
本稿では、BERT量子化を重み二項化の限界まで押し上げるBinaryBERTを提案する。
複雑で不規則な損失環境のため,バイナリBERTは3次学習よりも直接訓練が難しいことが判明した。
実験結果から、BinaryBERT は完全精度 BERT ベースと比較して無視できる性能低下を示した。
論文 参考訳(メタデータ) (2020-12-31T16:34:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。