論文の概要: TQCompressor: improving tensor decomposition methods in neural networks
via permutations
- arxiv url: http://arxiv.org/abs/2401.16367v1
- Date: Mon, 29 Jan 2024 18:07:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 13:39:46.191109
- Title: TQCompressor: improving tensor decomposition methods in neural networks
via permutations
- Title(参考訳): TQCompressor:置換によるニューラルネットワークのテンソル分解法の改善
- Authors: V. Abronin, A. Naumov, D. Mazur, D. Bystrov, K. Tsarova, Ar. Melnikov,
I. Oseledets, S. Dolgov, R. Brasher, M. Perelshtein
- Abstract要約: 本稿では,テンソル分解を改良したニューラルネットワークモデル圧縮手法であるTQCompressorを紹介する。
この拡張により、通常分解と関連付けられたモデル表現率の損失を低減することができる。
TQCompressedGPT-2 は DistilGPT-2 と KnGPT-2 を比較評価で上回った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce TQCompressor, a novel method for neural network model
compression with improved tensor decompositions. We explore the challenges
posed by the computational and storage demands of pre-trained language models
in NLP tasks and propose a permutation-based enhancement to Kronecker
decomposition. This enhancement makes it possible to reduce loss in model
expressivity which is usually associated with factorization. We demonstrate
this method applied to the GPT-2$_{small}$. The result of the compression is
TQCompressedGPT-2 model, featuring 81 mln. parameters compared to 124 mln. in
the GPT-2$_{small}$. We make TQCompressedGPT-2 publicly available. We further
enhance the performance of the TQCompressedGPT-2 through a training strategy
involving multi-step knowledge distillation, using only a 3.1% of the
OpenWebText. TQCompressedGPT-2 surpasses DistilGPT-2 and KnGPT-2 in comparative
evaluations, marking an advancement in the efficient and effective deployment
of models in resource-constrained environments.
- Abstract(参考訳): 本稿では,テンソル分解を改良したニューラルネットワークモデル圧縮手法であるTQCompressorを紹介する。
nlpタスクにおける事前学習された言語モデルの計算と記憶の要求によって生じる課題を調査し,クロネッカー分解に対する置換に基づく拡張を提案する。
この拡張により、通常は因子化と関連づけられるモデル表現性の損失を減らすことができる。
本手法を GPT-2$_{small}$ に適用する。
圧縮の結果、81mlnのTQCompressedGPT-2モデルが得られた。
124mlnと比較します
GPT-2$_{small}$
TQCompressedGPT-2を公開しています。
我々は,openwebtextの3.1%のみを用いて,多段階知識蒸留を含む訓練戦略により,tqcompressedgpt-2の性能をさらに向上させる。
TQCompressedGPT-2 は DistilGPT-2 と KnGPT-2 を上回り、資源制約環境におけるモデルの効率的かつ効果的な展開の進展を示す。
関連論文リスト
- GPT vs RETRO: Exploring the Intersection of Retrieval and Parameter-Efficient Fine-Tuning [48.71952325015267]
PEFT法を改良型Retrieval-Enhanced Transformer (RETRO) およびベースラインGPTモデルに適用する。
本稿では、RETROモデルが、独自の事前学習プロセスにより、ゼロショット設定でGPTモデルより優れていることを示す。
本研究は, GPTモデルとRETROモデルの両方に適用された各種PEFT法をRAGと統合した最初の包括的比較である。
論文 参考訳(メタデータ) (2024-07-05T14:16:47Z) - Approximating Human-Like Few-shot Learning with GPT-based Compression [55.699707962017975]
我々は、推論中にデータ圧縮を可能にする、人間のような学習能力を備えた生成事前学習モデルを提案する。
本稿では,GPT(Generative Pre-trained Transformer)を用いてコルモゴロフ複雑性を近似する手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T05:22:33Z) - TensorGPT: Efficient Compression of the Embedding Layer in LLMs based on
the Tensor-Train Decomposition [22.84674270619026]
本研究は, Matrix-Train Decomposition (TTD) に基づくアプローチを提案する。
各トークンの埋め込みは、分散的に効率的に計算できる製品状態(MPS)として扱われる。
GPT-2実験の結果, 埋め込み層を最大38.40倍圧縮することができ, 圧縮係数が3.31倍であれば, 従来のGPT-2モデルよりも優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-02T09:33:09Z) - Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - On-demand compute reduction with stochastic wav2vec 2.0 [63.22845151306881]
本稿では、wav2vec 2.0(W2V2)モデルに対するオンデマンドの計算量削減のための圧縮を提案する。
960hのLibrispeechデータセットで事前学習し、10hの転写データに微調整を行った結果,同じモデルを用いて単語誤り率(WER)と推測時間とのスムーズなトレードオフが得られた。
論文 参考訳(メタデータ) (2022-04-25T19:25:46Z) - Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。
本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文 参考訳(メタデータ) (2022-03-21T02:11:35Z) - Low-rank Tensor Decomposition for Compression of Convolutional Neural
Networks Using Funnel Regularization [1.8579693774597708]
低ランクテンソル分解を用いた事前学習ネットワークを圧縮するモデル削減手法を提案する。
圧縮中の重要でない要因を抑えるために, ファンネル関数と呼ばれる新しい正規化法を提案する。
ImageNet2012のResNet18では、GMACの精度は0.7%に過ぎず、Top-1の精度はわずかに低下する。
論文 参考訳(メタデータ) (2021-12-07T13:41:51Z) - A Short Study on Compressing Decoder-Based Language Models [9.090064110056224]
事前訓練された言語モデル(PLM)は、幅広い自然言語処理(NLP)タスクで成功している。
PLMの最先端技術は、エッジデバイスで使用するために非常に大きい。
モデル圧縮の話題はNLPコミュニティで注目を集めている。
論文 参考訳(メタデータ) (2021-10-16T03:37:08Z) - Kronecker Decomposition for GPT Compression [8.60086973058282]
GPTは自動回帰トランスフォーマーベースの事前学習言語モデルであり、自然言語処理(NLP)分野において多くの注目を集めている。
GPTの性能は優れているが、GPTはこのモデルを限られた計算能力やメモリを持つデバイスに展開することを非常に禁じることができる。
本研究では, GPT-22モデルの線形写像を圧縮するためにKronecker分解を用いる。
論文 参考訳(メタデータ) (2021-10-15T15:28:39Z) - An Efficient Statistical-based Gradient Compression Technique for
Distributed Training Systems [77.88178159830905]
Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。
SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
論文 参考訳(メタデータ) (2021-01-26T13:06:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。