論文の概要: Revisiting Offline Compression: Going Beyond Factorization-based Methods
for Transformer Language Models
- arxiv url: http://arxiv.org/abs/2302.04045v1
- Date: Wed, 8 Feb 2023 13:36:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-09 16:31:14.460388
- Title: Revisiting Offline Compression: Going Beyond Factorization-based Methods
for Transformer Language Models
- Title(参考訳): オフライン圧縮の再検討: トランスフォーマー言語モデルのための因子化に基づく方法を超える
- Authors: Mohammadreza Banaei, Klaudia Ba{\l}azy, Artur Kasymov, R\'emi Lebret,
Jacek Tabor, Karl Aberer
- Abstract要約: トランスフォーマー言語モデルは、多くの自然言語処理(NLP)タスクにおいて卓越した結果を達成する。
その巨大なサイズは、しばしばメモリ制限されたデバイスを非現実的にし、実践者はそれをより小さなネットワークに圧縮する必要がある。
本稿では,圧縮モデルをさらに微調整する必要のないオフライン圧縮手法について検討する。
- 参考スコア(独自算出の注目度): 7.542276054279341
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent transformer language models achieve outstanding results in many
natural language processing (NLP) tasks. However, their enormous size often
makes them impractical on memory-constrained devices, requiring practitioners
to compress them to smaller networks. In this paper, we explore offline
compression methods, meaning computationally-cheap approaches that do not
require further fine-tuning of the compressed model. We challenge the classical
matrix factorization methods by proposing a novel, better-performing
autoencoder-based framework. We perform a comprehensive ablation study of our
approach, examining its different aspects over a diverse set of evaluation
settings. Moreover, we show that enabling collaboration between modules across
layers by compressing certain modules together positively impacts the final
model performance. Experiments on various NLP tasks demonstrate that our
approach significantly outperforms commonly used factorization-based offline
compression methods.
- Abstract(参考訳): 最近のトランスフォーマー言語モデルは、多くの自然言語処理(NLP)タスクにおいて顕著な結果をもたらす。
しかし、その巨大なサイズはメモリ制限されたデバイスでは実用的ではなく、実践者はそれを小さなネットワークに圧縮する必要がある。
本稿では,圧縮モデルのさらなる微調整を必要としないオフライン圧縮手法について検討する。
我々は,新しい高性能なオートエンコーダベースのフレームワークを提案することで,古典的な行列分解法に挑戦する。
我々は,このアプローチを包括的に研究し,その異なる側面を様々な評価条件で検証した。
さらに, あるモジュールを一緒に圧縮することで, レイヤ間の協調が最終的なモデル性能に肯定的な影響を与えることを示す。
様々なNLPタスクの実験により,本手法は係数化に基づくオフライン圧縮法よりも大幅に優れていることが示された。
関連論文リスト
- Comprehensive Study on Performance Evaluation and Optimization of Model Compression: Bridging Traditional Deep Learning and Large Language Models [0.0]
世界中のコネクテッドデバイスの数の増加は、計算能力の低いローカルデバイスに容易に展開できる圧縮モデルを保証する。
画像分類,オブジェクト検出,言語モデル,生成モデルに基づく問題文に使用される一般的なディープラーニングモデルに対して,量子化とプルーニングの両方を実装した。
論文 参考訳(メタデータ) (2024-07-22T14:20:53Z) - Composable Interventions for Language Models [60.32695044723103]
言語モデルのテストタイム介入は、事実の正確性を高め、有害な出力を軽減し、コストのかかる再トレーニングなしにモデルの効率を向上させる。
しかし、新しい手法の洪水にもかかわらず、様々な種類の介入が独立して発展している。
複数の介入が同じ言語モデルに与える影響を研究するためのフレームワークである構成可能な介入を導入する。
論文 参考訳(メタデータ) (2024-07-09T01:17:44Z) - Fast Vocabulary Transfer for Language Model Compression [3.5668409338590195]
本稿では,語彙変換に依存するモデル圧縮手法を提案する。
以上の結果から,語彙移動は他の圧縮技術と組み合わせて効果的に活用できることが示唆された。
論文 参考訳(メタデータ) (2024-02-15T14:37:07Z) - A Survey on Transformer Compression [84.18094368700379]
自然言語処理(NLP)とコンピュータビジョン(CV)の領域においてトランスフォーマーは重要な役割を果たす
モデル圧縮法は、Transformerのメモリと計算コストを削減する。
この調査は、Transformerベースのモデルに適用することに焦点を当てた、最近の圧縮方法に関する包括的なレビューを提供する。
論文 参考訳(メタデータ) (2024-02-05T12:16:28Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - LLMLingua: Compressing Prompts for Accelerated Inference of Large
Language Models [22.06402870816756]
大きな言語モデル(LLM)は、その驚くべき能力のために様々なアプリケーションに適用されている。
本稿では,意味的整合性を維持するための予算制御を伴う粗大なプロンプト圧縮手法であるLLMLinguaを提案する。
提案手法により,最先端性能が得られ,最大20倍圧縮が可能であり,性能損失が少ないことを示す。
論文 参考訳(メタデータ) (2023-10-09T14:10:21Z) - Exploring Dimensionality Reduction Techniques in Multilingual
Transformers [64.78260098263489]
本稿では,多言語シームス変圧器の性能に及ぼす次元還元法の影響を包括的に考察する。
これは、それぞれ91.58% pm 2.59%$と54.65% pm 32.20%$の次元を平均で減少させることが可能であることを示している。
論文 参考訳(メタデータ) (2022-04-18T17:20:55Z) - Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。
本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文 参考訳(メタデータ) (2022-03-21T02:11:35Z) - What do Compressed Large Language Models Forget? Robustness Challenges
in Model Compression [68.82486784654817]
本稿では,知識蒸留とプルーニングを含む2つの一般的なモデル圧縮手法について検討する。
本研究では, 圧縮モデルが, 対向テストセット上のPLMモデルよりもはるかに頑健であることを示す。
サンプル不確実性に基づくモデル圧縮の正規化戦略を開発する。
論文 参考訳(メタデータ) (2021-10-16T00:20:04Z) - Direction is what you need: Improving Word Embedding Compression in
Large Language Models [7.736463504706344]
本稿では,AutoEncoderアーキテクチャを利用してトランスフォーマーモデルにトークン埋め込みを圧縮する新たな損失目標を提案する。
提案手法は,初期の言語モデルであるPerplexityにおいて,よく使われるSVDベースの行列分解手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-06-15T14:28:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。