Fugu-MT 論文翻訳(概要): DSFormer: Effective Compression of Text-Transformers by Dense-Sparse Weight Factorization

論文の概要: DSFormer: Effective Compression of Text-Transformers by Dense-Sparse Weight Factorization

arxiv url: http://arxiv.org/abs/2312.13211v1
Date: Wed, 20 Dec 2023 17:27:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-21 14:39:04.578579
Title: DSFormer: Effective Compression of Text-Transformers by Dense-Sparse Weight Factorization
Title（参考訳）: DSFormer:Dense-Sparse Weight Factorizationによるテキスト変換器の効率的な圧縮
Authors: Rahul Chand, Yashoteja Prabhu, Pratyush Kumar
Abstract要約: DSFormerは、ターゲットの重み行列を小さな密度と半構造化されたスパース行列の積として表現する単純な代替因数分解スキームである。我々のアプローチは、主流圧縮機にも当てはまり、一般的な蒸留、層共有および量子化変換器に追加される場合、最大50%の圧縮を提供する。
参考スコア（独自算出の注目度）: 12.277820111814691
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the tremendous success of large transformer models in natural language understanding, down-sizing them for cost-effective deployments has become critical. Recent studies have explored the low-rank weight factorization techniques which are efficient to train, and apply out-of-the-box to any transformer architecture. Unfortunately, the low-rank assumption tends to be over-restrictive and hinders the expressiveness of the compressed model. This paper proposes, DSFormer, a simple alternative factorization scheme which expresses a target weight matrix as the product of a small dense and a semi-structured sparse matrix. The resulting approximation is more faithful to the weight distribution in transformers and therefore achieves a stronger efficiency-accuracy trade-off. Another concern with existing factorizers is their dependence on a task-unaware initialization step which degrades the accuracy of the resulting model. DSFormer addresses this issue through a novel Straight-Through Factorizer (STF) algorithm that jointly learns all the weight factorizations to directly maximize the final task accuracy. Extensive experiments on multiple natural language understanding benchmarks demonstrate that DSFormer obtains up to 40% better compression than the state-of-the-art low-rank factorizers, leading semi-structured sparsity baselines and popular knowledge distillation approaches. Our approach is also orthogonal to mainstream compressors and offers up to 50% additional compression when added to popular distilled, layer-shared and quantized transformers. We empirically evaluate the benefits of STF over conventional optimization practices.
Abstract（参考訳）: 自然言語理解における大規模トランスフォーマモデルの成功により、コスト効率のよいデプロイメントのためにそれらをダウンサイジングすることが重要になっている。近年の研究では、トレーニングに効率的で、任意のトランスフォーマーアーキテクチャにアウト・オブ・ボックスを適用する低ランクの重み分解技術が研究されている。残念なことに、低ランクの仮定は過剰に制限され、圧縮されたモデルの表現性を阻害する傾向がある。本稿では,ターゲット重み行列を小密度および半構造スパース行列の積として表現する,単純な代替因子化スキームdsformerを提案する。結果として得られる近似は変圧器の重量分布に忠実であり、したがってより高い効率-精度のトレードオフを達成する。既存のファクタライザに対するもうひとつの懸念は、結果のモデルの精度を低下させるタスクを意識しない初期化ステップへの依存である。 DSFormerは、最終的なタスク精度を直接最大化するために、全ての重み係数化を共同で学習する新しいストレート・スロー・ファクタライザ(STF)アルゴリズムによってこの問題に対処する。複数の自然言語理解ベンチマークに関する広範囲な実験により、dsformerは最先端の低ランク因子よりも最大40%優れた圧縮を得られることが示され、半構造化スパーシティ基準と一般的な知識蒸留アプローチが導かれる。我々のアプローチは主流の圧縮機と直交しており、一般的な蒸留、層共有、量子化トランスに加えると最大50%の追加圧縮を提供する。従来の最適化手法よりもSTFの利点を実証的に評価する。

関連論文リスト

Optimizing Singular Spectrum for Large Language Model Compression [95.7621116637755]
SVDの分解したコンポーネントをデータ駆動で再スケールする新しい圧縮フレームワークであるSoCoを紹介する。学習可能な特異スペクトルのおかげで、SoCoは重要度スコアに応じて成分を適応的にプーンする。複数のLLMおよびベンチマークでの実験的な評価は、SoCoがモデル圧縮における最先端の手法を超越していることを示している。
論文参考訳（メタデータ） (2025-02-20T23:18:39Z)
Adaptive Pruning of Pretrained Transformer via Differential Inclusions [48.47890215458465]
現在の圧縮アルゴリズムは一定の圧縮比でプルーーン変換器であり、各比に対して独自のプルーニングプロセスを必要とする。本研究では,マスクパラメータの差分包摂性に基づいて,事前学習した変圧器を1つのプルーニング段階内において任意の所望の比率でプルーニングすることを提案する。このダイナミクスは、ネットワーク構造を識別するサポートセットを持つマスクパラメータの全体正規化ソリューションパスを生成することができる。
論文参考訳（メタデータ） (2025-01-06T06:34:52Z)
SEE: Sememe Entanglement Encoding for Transformer-bases Models Compression [20.824040486029354]
トランスフォーマーベースの大規模言語モデルは画期的な能力を示すが、そのストレージと計算コストは高く、リソース制約のあるシナリオでの応用を制限している。効率的なアプローチは、圧縮と性能のバランスを達成するために、効率的な専門家由来の知識構造を取り入れながら、冗長なモデルパラメータと計算コストを排除することである。
論文参考訳（メタデータ） (2024-12-15T12:01:43Z)
BEExformer: A Fast Inferencing Transformer Architecture via Binarization with Multiple Early Exits [2.7651063843287718]
トランスフォーマーに基づく大規模言語モデル(LLM)は、様々なアプリケーションで最先端の結果を得る。様々な効率の考慮事項の中で、モデルバイナライゼーションとEarly Exit(EE)は一般的な有効解である。本稿では,最初の選択型学習変圧器アーキテクチャであるBinarized Early Exit Transformer (BEExformer)を提案する。
論文参考訳（メタデータ） (2024-12-06T17:58:14Z)
Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [66.1595537904019]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
論文参考訳（メタデータ） (2024-09-26T13:38:33Z)
Convolutional Neural Network Compression Based on Low-Rank Decomposition [3.3295360710329738]
本稿では,変分ベイズ行列分解を組み込んだモデル圧縮法を提案する。 VBMFは各層における重みテンソルのランクを推定するために用いられる。その結果, 高圧縮比と低圧縮比では, 圧縮モデルの性能が向上することがわかった。
論文参考訳（メタデータ） (2024-08-29T06:40:34Z)
Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文参考訳（メタデータ） (2024-06-24T23:00:58Z)
A Survey on Transformer Compression [84.18094368700379]
自然言語処理(NLP)とコンピュータビジョン(CV)の領域においてトランスフォーマーは重要な役割を果たすモデル圧縮法は、Transformerのメモリと計算コストを削減する。この調査は、Transformerベースのモデルに適用することに焦点を当てた、最近の圧縮方法に関する包括的なレビューを提供する。
論文参考訳（メタデータ） (2024-02-05T12:16:28Z)
On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文参考訳（メタデータ） (2023-11-02T20:03:05Z)
Low-Rank Prune-And-Factorize for Language Model Compression [18.088550230146247]
マトリックスの分解は、中程度から高い圧縮速度で良好な性能を維持することができない。スパシティ対応SVDとミックスランクファインチューニングの2つの手法を提案する。
論文参考訳（メタデータ） (2023-06-25T07:38:43Z)
Quantization-Aware and Tensor-Compressed Training of Transformers for Natural Language Understanding [12.030179065286928]
本稿では,変圧器モデルにおけるモデルサイズ,演算演算,実行遅延を低減するために,量子化対応テンソル圧縮トレーニング手法を提案する。あらかじめ訓練された変圧器から量子化およびテンソル圧縮された学生モデルを蒸留するために層間蒸留を適用した。パフォーマンスは2つの自然言語理解タスクで実証され、最大6,3倍の圧縮率、精度の低下、顕著な推論とトレーニングのスピードアップを示す。
論文参考訳（メタデータ） (2023-06-01T18:32:08Z)
HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文参考訳（メタデータ） (2022-11-30T05:31:45Z)
Compressing Pre-trained Transformers via Low-Bit NxM Sparsity for Natural Language Understanding [20.75335227098455]
大規模な事前学習型トランスフォーマーネットワークは、多くの自然言語理解タスクにおいて劇的に改善されている。 NM半構造スパーシリティと低精度整数計算の両方をサポートする新しいハードウェアは、モデル提供効率を高めるための有望な解決策である。本研究では,同時スペーシフィケーションと量子化を行うフレキシブル圧縮フレームワークNxMiFormerを提案する。
論文参考訳（メタデータ） (2022-06-30T04:33:50Z)
The Cascade Transformer: an Application for Efficient Answer Sentence Selection [116.09532365093659]
本稿では,変圧器をベースとしたモデルのカスケード化手法であるカスケード変換器について紹介する。現状の変圧器モデルと比較すると,提案手法は精度にほとんど影響を与えずに計算量を37%削減する。
論文参考訳（メタデータ） (2020-05-05T23:32:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。