論文の概要: Revisiting Offline Compression: Going Beyond Factorization-based Methods
for Transformer Language Models
- arxiv url: http://arxiv.org/abs/2302.04045v1
- Date: Wed, 8 Feb 2023 13:36:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-09 16:31:14.460388
- Title: Revisiting Offline Compression: Going Beyond Factorization-based Methods
for Transformer Language Models
- Title(参考訳): オフライン圧縮の再検討: トランスフォーマー言語モデルのための因子化に基づく方法を超える
- Authors: Mohammadreza Banaei, Klaudia Ba{\l}azy, Artur Kasymov, R\'emi Lebret,
Jacek Tabor, Karl Aberer
- Abstract要約: トランスフォーマー言語モデルは、多くの自然言語処理(NLP)タスクにおいて卓越した結果を達成する。
その巨大なサイズは、しばしばメモリ制限されたデバイスを非現実的にし、実践者はそれをより小さなネットワークに圧縮する必要がある。
本稿では,圧縮モデルをさらに微調整する必要のないオフライン圧縮手法について検討する。
- 参考スコア(独自算出の注目度): 7.542276054279341
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent transformer language models achieve outstanding results in many
natural language processing (NLP) tasks. However, their enormous size often
makes them impractical on memory-constrained devices, requiring practitioners
to compress them to smaller networks. In this paper, we explore offline
compression methods, meaning computationally-cheap approaches that do not
require further fine-tuning of the compressed model. We challenge the classical
matrix factorization methods by proposing a novel, better-performing
autoencoder-based framework. We perform a comprehensive ablation study of our
approach, examining its different aspects over a diverse set of evaluation
settings. Moreover, we show that enabling collaboration between modules across
layers by compressing certain modules together positively impacts the final
model performance. Experiments on various NLP tasks demonstrate that our
approach significantly outperforms commonly used factorization-based offline
compression methods.
- Abstract(参考訳): 最近のトランスフォーマー言語モデルは、多くの自然言語処理(NLP)タスクにおいて顕著な結果をもたらす。
しかし、その巨大なサイズはメモリ制限されたデバイスでは実用的ではなく、実践者はそれを小さなネットワークに圧縮する必要がある。
本稿では,圧縮モデルのさらなる微調整を必要としないオフライン圧縮手法について検討する。
我々は,新しい高性能なオートエンコーダベースのフレームワークを提案することで,古典的な行列分解法に挑戦する。
我々は,このアプローチを包括的に研究し,その異なる側面を様々な評価条件で検証した。
さらに, あるモジュールを一緒に圧縮することで, レイヤ間の協調が最終的なモデル性能に肯定的な影響を与えることを示す。
様々なNLPタスクの実験により,本手法は係数化に基づくオフライン圧縮法よりも大幅に優れていることが示された。
関連論文リスト
- Fast Vocabulary Transfer for Language Model Compression [3.5668409338590195]
本稿では,語彙変換に依存するモデル圧縮手法を提案する。
以上の結果から,語彙移動は他の圧縮技術と組み合わせて効果的に活用できることが示唆された。
論文 参考訳(メタデータ) (2024-02-15T14:37:07Z) - A Thorough Examination of Decoding Methods in the Era of LLMs [76.30313058201182]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。
本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。
その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-10T11:14:53Z) - A Survey on Transformer Compression [84.18094368700379]
Transformerアーキテクチャに基づく大規模モデルは、人工知能においてますます重要な役割を担っている。
モデル圧縮法はメモリと計算コストを削減し、実用的なデバイス上でトランスフォーマーモデルを実装するために必要なステップである。
このサーベイは、最近の圧縮手法の包括的なレビューを提供し、トランスフォーマーモデルへの適用に特に焦点をあてている。
論文 参考訳(メタデータ) (2024-02-05T12:16:28Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - LLMLingua: Compressing Prompts for Accelerated Inference of Large
Language Models [22.06402870816756]
大きな言語モデル(LLM)は、その驚くべき能力のために様々なアプリケーションに適用されている。
本稿では,意味的整合性を維持するための予算制御を伴う粗大なプロンプト圧縮手法であるLLMLinguaを提案する。
提案手法により,最先端性能が得られ,最大20倍圧縮が可能であり,性能損失が少ないことを示す。
論文 参考訳(メタデータ) (2023-10-09T14:10:21Z) - Exploring Dimensionality Reduction Techniques in Multilingual
Transformers [64.78260098263489]
本稿では,多言語シームス変圧器の性能に及ぼす次元還元法の影響を包括的に考察する。
これは、それぞれ91.58% pm 2.59%$と54.65% pm 32.20%$の次元を平均で減少させることが可能であることを示している。
論文 参考訳(メタデータ) (2022-04-18T17:20:55Z) - Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。
本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文 参考訳(メタデータ) (2022-03-21T02:11:35Z) - What do Compressed Large Language Models Forget? Robustness Challenges
in Model Compression [68.82486784654817]
本稿では,知識蒸留とプルーニングを含む2つの一般的なモデル圧縮手法について検討する。
本研究では, 圧縮モデルが, 対向テストセット上のPLMモデルよりもはるかに頑健であることを示す。
サンプル不確実性に基づくモデル圧縮の正規化戦略を開発する。
論文 参考訳(メタデータ) (2021-10-16T00:20:04Z) - Direction is what you need: Improving Word Embedding Compression in
Large Language Models [7.736463504706344]
本稿では,AutoEncoderアーキテクチャを利用してトランスフォーマーモデルにトークン埋め込みを圧縮する新たな損失目標を提案する。
提案手法は,初期の言語モデルであるPerplexityにおいて,よく使われるSVDベースの行列分解手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-06-15T14:28:00Z) - End-to-end Learning of Compressible Features [35.40108701875527]
事前訓練された畳み込みニューラルネットワーク(CNN)は、市販の機能ジェネレータである。
CNNは、市販の強力な機能ジェネレータであり、様々なタスクで非常によく機能することが示されている。
残念ながら、生成された機能は高次元であり、保存するのにコストがかかる。
そこで本稿では, 圧縮性とタスク目標を協調的に最適化する学習手法を提案する。
論文 参考訳(メタデータ) (2020-07-23T05:17:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。