論文の概要: DSFormer: Effective Compression of Text-Transformers by Dense-Sparse
Weight Factorization
- arxiv url: http://arxiv.org/abs/2312.13211v1
- Date: Wed, 20 Dec 2023 17:27:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 14:39:04.578579
- Title: DSFormer: Effective Compression of Text-Transformers by Dense-Sparse
Weight Factorization
- Title(参考訳): DSFormer:Dense-Sparse Weight Factorizationによるテキスト変換器の効率的な圧縮
- Authors: Rahul Chand, Yashoteja Prabhu, Pratyush Kumar
- Abstract要約: DSFormerは、ターゲットの重み行列を小さな密度と半構造化されたスパース行列の積として表現する単純な代替因数分解スキームである。
我々のアプローチは、主流圧縮機にも当てはまり、一般的な蒸留、層共有および量子化変換器に追加される場合、最大50%の圧縮を提供する。
- 参考スコア(独自算出の注目度): 12.277820111814691
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the tremendous success of large transformer models in natural language
understanding, down-sizing them for cost-effective deployments has become
critical. Recent studies have explored the low-rank weight factorization
techniques which are efficient to train, and apply out-of-the-box to any
transformer architecture. Unfortunately, the low-rank assumption tends to be
over-restrictive and hinders the expressiveness of the compressed model. This
paper proposes, DSFormer, a simple alternative factorization scheme which
expresses a target weight matrix as the product of a small dense and a
semi-structured sparse matrix. The resulting approximation is more faithful to
the weight distribution in transformers and therefore achieves a stronger
efficiency-accuracy trade-off. Another concern with existing factorizers is
their dependence on a task-unaware initialization step which degrades the
accuracy of the resulting model. DSFormer addresses this issue through a novel
Straight-Through Factorizer (STF) algorithm that jointly learns all the weight
factorizations to directly maximize the final task accuracy. Extensive
experiments on multiple natural language understanding benchmarks demonstrate
that DSFormer obtains up to 40% better compression than the state-of-the-art
low-rank factorizers, leading semi-structured sparsity baselines and popular
knowledge distillation approaches. Our approach is also orthogonal to
mainstream compressors and offers up to 50% additional compression when added
to popular distilled, layer-shared and quantized transformers. We empirically
evaluate the benefits of STF over conventional optimization practices.
- Abstract(参考訳): 自然言語理解における大規模トランスフォーマモデルの成功により、コスト効率のよいデプロイメントのためにそれらをダウンサイジングすることが重要になっている。
近年の研究では、トレーニングに効率的で、任意のトランスフォーマーアーキテクチャにアウト・オブ・ボックスを適用する低ランクの重み分解技術が研究されている。
残念なことに、低ランクの仮定は過剰に制限され、圧縮されたモデルの表現性を阻害する傾向がある。
本稿では,ターゲット重み行列を小密度および半構造スパース行列の積として表現する,単純な代替因子化スキームdsformerを提案する。
結果として得られる近似は変圧器の重量分布に忠実であり、したがってより高い効率-精度のトレードオフを達成する。
既存のファクタライザに対するもうひとつの懸念は、結果のモデルの精度を低下させるタスクを意識しない初期化ステップへの依存である。
DSFormerは、最終的なタスク精度を直接最大化するために、全ての重み係数化を共同で学習する新しいストレート・スロー・ファクタライザ(STF)アルゴリズムによってこの問題に対処する。
複数の自然言語理解ベンチマークに関する広範囲な実験により、dsformerは最先端の低ランク因子よりも最大40%優れた圧縮を得られることが示され、半構造化スパーシティ基準と一般的な知識蒸留アプローチが導かれる。
我々のアプローチは主流の圧縮機と直交しており、一般的な蒸留、層共有、量子化トランスに加えると最大50%の追加圧縮を提供する。
従来の最適化手法よりもSTFの利点を実証的に評価する。
関連論文リスト
- Language Models as Zero-shot Lossless Gradient Compressors: Towards
General Neural Parameter Prior Models [66.1595537904019]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - Convolutional Neural Network Compression Based on Low-Rank Decomposition [3.3295360710329738]
本稿では,変分ベイズ行列分解を組み込んだモデル圧縮法を提案する。
VBMFは各層における重みテンソルのランクを推定するために用いられる。
その結果, 高圧縮比と低圧縮比では, 圧縮モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-29T06:40:34Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - A Survey on Transformer Compression [84.18094368700379]
自然言語処理(NLP)とコンピュータビジョン(CV)の領域においてトランスフォーマーは重要な役割を果たす
モデル圧縮法は、Transformerのメモリと計算コストを削減する。
この調査は、Transformerベースのモデルに適用することに焦点を当てた、最近の圧縮方法に関する包括的なレビューを提供する。
論文 参考訳(メタデータ) (2024-02-05T12:16:28Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - Low-Rank Prune-And-Factorize for Language Model Compression [18.088550230146247]
マトリックスの分解は、中程度から高い圧縮速度で良好な性能を維持することができない。
スパシティ対応SVDとミックスランクファインチューニングの2つの手法を提案する。
論文 参考訳(メタデータ) (2023-06-25T07:38:43Z) - Quantization-Aware and Tensor-Compressed Training of Transformers for
Natural Language Understanding [12.030179065286928]
本稿では,変圧器モデルにおけるモデルサイズ,演算演算,実行遅延を低減するために,量子化対応テンソル圧縮トレーニング手法を提案する。
あらかじめ訓練された変圧器から量子化およびテンソル圧縮された学生モデルを蒸留するために層間蒸留を適用した。
パフォーマンスは2つの自然言語理解タスクで実証され、最大6,3倍の圧縮率、精度の低下、顕著な推論とトレーニングのスピードアップを示す。
論文 参考訳(メタデータ) (2023-06-01T18:32:08Z) - HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。
ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文 参考訳(メタデータ) (2022-11-30T05:31:45Z) - Compressing Pre-trained Transformers via Low-Bit NxM Sparsity for
Natural Language Understanding [20.75335227098455]
大規模な事前学習型トランスフォーマーネットワークは、多くの自然言語理解タスクにおいて劇的に改善されている。
NM半構造スパーシリティと低精度整数計算の両方をサポートする新しいハードウェアは、モデル提供効率を高めるための有望な解決策である。
本研究では,同時スペーシフィケーションと量子化を行うフレキシブル圧縮フレームワークNxMiFormerを提案する。
論文 参考訳(メタデータ) (2022-06-30T04:33:50Z) - The Cascade Transformer: an Application for Efficient Answer Sentence
Selection [116.09532365093659]
本稿では,変圧器をベースとしたモデルのカスケード化手法であるカスケード変換器について紹介する。
現状の変圧器モデルと比較すると,提案手法は精度にほとんど影響を与えずに計算量を37%削減する。
論文 参考訳(メタデータ) (2020-05-05T23:32:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。