論文の概要: Direction is what you need: Improving Word Embedding Compression in
Large Language Models
- arxiv url: http://arxiv.org/abs/2106.08181v1
- Date: Tue, 15 Jun 2021 14:28:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-16 15:15:49.710073
- Title: Direction is what you need: Improving Word Embedding Compression in
Large Language Models
- Title(参考訳): 方向性とは何か:大規模言語モデルにおける単語埋め込み圧縮の改善
- Authors: Klaudia Ba{\l}azy, Mohammadreza Banaei, R\'emi Lebret, Jacek Tabor,
Karl Aberer
- Abstract要約: 本稿では,AutoEncoderアーキテクチャを利用してトランスフォーマーモデルにトークン埋め込みを圧縮する新たな損失目標を提案する。
提案手法は,初期の言語モデルであるPerplexityにおいて,よく使われるSVDベースの行列分解手法よりも大幅に優れている。
- 参考スコア(独自算出の注目度): 7.736463504706344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The adoption of Transformer-based models in natural language processing (NLP)
has led to great success using a massive number of parameters. However, due to
deployment constraints in edge devices, there has been a rising interest in the
compression of these models to improve their inference time and memory
footprint. This paper presents a novel loss objective to compress token
embeddings in the Transformer-based models by leveraging an AutoEncoder
architecture. More specifically, we emphasize the importance of the direction
of compressed embeddings with respect to original uncompressed embeddings. The
proposed method is task-agnostic and does not require further language modeling
pre-training. Our method significantly outperforms the commonly used SVD-based
matrix-factorization approach in terms of initial language model Perplexity.
Moreover, we evaluate our proposed approach over SQuAD v1.1 dataset and several
downstream tasks from the GLUE benchmark, where we also outperform the baseline
in most scenarios. Our code is public.
- Abstract(参考訳): 自然言語処理(nlp)におけるトランスフォーマティブベースのモデルの採用は、大量のパラメータを用いて大きな成功を収めた。
しかし、エッジデバイスにおけるデプロイメントの制約により、推論時間とメモリフットプリントを改善するため、これらのモデルの圧縮に対する関心が高まっている。
本稿では,AutoEncoderアーキテクチャを利用して,トランスフォーマーモデルにトークン埋め込みを圧縮する新たな損失目標を提案する。
より具体的には、オリジナルの非圧縮埋め込みに関して圧縮埋め込みの方向の重要性を強調している。
提案手法はタスク非依存であり,言語モデリングの事前学習は不要である。
提案手法は,初期の言語モデルであるPerplexityにおいて,よく使われるSVDベースの行列分解手法よりも優れている。
さらに、SQuAD v1.1データセットに対する提案したアプローチと、GLUEベンチマークからのダウンストリームタスクを評価し、ほとんどのシナリオでベースラインよりも優れています。
私たちのコードは公開されています。
関連論文リスト
- A Survey on Transformer Compression [84.18094368700379]
自然言語処理(NLP)とコンピュータビジョン(CV)の領域においてトランスフォーマーは重要な役割を果たす
モデル圧縮法は、Transformerのメモリと計算コストを削減する。
この調査は、Transformerベースのモデルに適用することに焦点を当てた、最近の圧縮方法に関する包括的なレビューを提供する。
論文 参考訳(メタデータ) (2024-02-05T12:16:28Z) - Frustratingly Simple Memory Efficiency for Pre-trained Language Models
via Dynamic Embedding Pruning [42.652021176354644]
プレトレーニング言語モデル(PLM)のメモリフットプリントは、メモリ制限された設定でのデプロイメントを妨げる可能性がある。
本稿では, 組込み行列のメモリフットプリントを最小化するために, この発見を活用する, 単純かつ効果的な手法を提案する。
このアプローチは、幅広いモデルやタスクにわたるメモリ使用量を大幅に削減することを示している。
論文 参考訳(メタデータ) (2023-09-15T19:00:00Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Revisiting Offline Compression: Going Beyond Factorization-based Methods
for Transformer Language Models [7.542276054279341]
トランスフォーマー言語モデルは、多くの自然言語処理(NLP)タスクにおいて卓越した結果を達成する。
その巨大なサイズは、しばしばメモリ制限されたデバイスを非現実的にし、実践者はそれをより小さなネットワークに圧縮する必要がある。
本稿では,圧縮モデルをさらに微調整する必要のないオフライン圧縮手法について検討する。
論文 参考訳(メタデータ) (2023-02-08T13:36:06Z) - Numerical Optimizations for Weighted Low-rank Estimation on Language
Model [73.12941276331316]
Singular value decomposition (SVD) は、より小さい行列でターゲット行列を近似する最も一般的な圧縮手法の1つである。
標準SVDは行列内のパラメータを同じ重要性で扱うが、これは単純だが非現実的な仮定である。
本手法は,ニューラルベース言語モデルにおいて,現在のSOTA法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-02T00:58:02Z) - N-Grammer: Augmenting Transformers with latent n-grams [35.39961549040385]
本稿では,テキストシーケンスの離散潜在表現から構築したn-gramでモデルを拡張することにより,統計言語モデリングの文献に触発されたトランスフォーマーアーキテクチャの簡易かつ効果的な変更を提案する。
我々は、C4データセットの言語モデリングにおけるN-GrammerモデルとSuperGLUEデータセットのテキスト分類を評価し、TransformerやPrimerといった強力なベースラインよりも優れていることを発見した。
論文 参考訳(メタデータ) (2022-07-13T17:18:02Z) - Text Compression-aided Transformer Encoding [77.16960983003271]
本稿では,トランスフォーマーのエンコーディングを強化するために,明示的で暗黙的なテキスト圧縮手法を提案する。
バックボーン情報、つまり入力テキストのgistは、特に焦点を当てていません。
評価の結果,提案した明示的かつ暗黙的なテキスト圧縮手法は,強いベースラインと比較して結果を改善することがわかった。
論文 参考訳(メタデータ) (2021-02-11T11:28:39Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。