論文の概要: A Survey on Transformer Compression
- arxiv url: http://arxiv.org/abs/2402.05964v2
- Date: Sun, 7 Apr 2024 13:03:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 01:16:32.378265
- Title: A Survey on Transformer Compression
- Title(参考訳): 変圧器圧縮に関する調査
- Authors: Yehui Tang, Yunhe Wang, Jianyuan Guo, Zhijun Tu, Kai Han, Hailin Hu, Dacheng Tao,
- Abstract要約: 自然言語処理(NLP)とコンピュータビジョン(CV)の領域においてトランスフォーマーは重要な役割を果たす
モデル圧縮法は、Transformerのメモリと計算コストを削減する。
この調査は、Transformerベースのモデルに適用することに焦点を当てた、最近の圧縮方法に関する包括的なレビューを提供する。
- 参考スコア(独自算出の注目度): 84.18094368700379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer plays a vital role in the realms of natural language processing (NLP) and computer vision (CV), specially for constructing large language models (LLM) and large vision models (LVM). Model compression methods reduce the memory and computational cost of Transformer, which is a necessary step to implement large language/vision models on practical devices. Given the unique architecture of Transformer, featuring alternative attention and feedforward neural network (FFN) modules, specific compression techniques are usually required. The efficiency of these compression methods is also paramount, as retraining large models on the entire training dataset is usually impractical. This survey provides a comprehensive review of recent compression methods, with a specific focus on their application to Transformer-based models. The compression methods are primarily categorized into pruning, quantization, knowledge distillation, and efficient architecture design (Mamba, RetNet, RWKV, etc.). In each category, we discuss compression methods for both language and vision tasks, highlighting common underlying principles. Finally, we delve into the relation between various compression methods, and discuss further directions in this domain.
- Abstract(参考訳): トランスフォーマーは、自然言語処理(NLP)とコンピュータビジョン(CV)の領域において、特に大型言語モデル(LLM)と大型ビジョンモデル(LVM)の構築において重要な役割を果たす。
モデル圧縮法はTransformerのメモリと計算コストを削減し、実用的なデバイス上で大きな言語/ビジョンモデルを実装するために必要なステップである。
代替の注意とフィードフォワードニューラルネットワーク(FFN)モジュールを特徴とするTransformerのユニークなアーキテクチャを考えると、特定の圧縮技術が要求される。
これらの圧縮手法の効率も最重要であり、トレーニングデータセット全体において大きなモデルを再訓練することは、通常不可能である。
この調査は、Transformerベースのモデルに適用することに焦点を当てた、最近の圧縮方法に関する包括的なレビューを提供する。
圧縮法は主にプルーニング、量子化、知識蒸留、効率的なアーキテクチャ設計(Mamba、RetNet、RWKVなど)に分けられる。
それぞれのカテゴリにおいて、言語と視覚の両方のタスクの圧縮方法について議論し、共通原理を強調する。
最後に、様々な圧縮手法の関係を掘り下げ、この領域のさらなる方向性について論じる。
関連論文リスト
- LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。
MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。
本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文 参考訳(メタデータ) (2024-08-19T01:30:14Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - Blockwise Compression of Transformer-based Models without Retraining [6.118476907408718]
本稿では,再学習を伴わない変圧器のブロックワイド圧縮フレームワークであるBCTを提案する。
層ワイド圧縮法とは異なり、BCTはブロックワイド操作によりトランス全体のより微細な圧縮を実現する。
BCTは、埋め込み、行列乗算、GELU、Softmax、層正規化、中間結果など、モデルの全コンポーネントを効果的に圧縮する。
論文 参考訳(メタデータ) (2023-04-04T02:55:40Z) - Revisiting Offline Compression: Going Beyond Factorization-based Methods
for Transformer Language Models [7.542276054279341]
トランスフォーマー言語モデルは、多くの自然言語処理(NLP)タスクにおいて卓越した結果を達成する。
その巨大なサイズは、しばしばメモリ制限されたデバイスを非現実的にし、実践者はそれをより小さなネットワークに圧縮する必要がある。
本稿では,圧縮モデルをさらに微調整する必要のないオフライン圧縮手法について検討する。
論文 参考訳(メタデータ) (2023-02-08T13:36:06Z) - Knowledge Distillation in Vision Transformers: A Critical Review [6.508088032296086]
ビジョントランスフォーマー(ViT)は、畳み込みニューラルネットワーク(CNN)よりも優れたパフォーマンス向上を実証した。
モデル圧縮は、最近、潜在的治療としてかなりの研究の注目を集めている。
本稿では、VTモデルの効率的な圧縮のためのKDに基づく様々なアプローチについて論じる。
論文 参考訳(メタデータ) (2023-02-04T06:30:57Z) - Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。
圧縮アルゴリズムの3つの共通クラスを実装し,評価する。
我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文 参考訳(メタデータ) (2023-01-06T18:58:09Z) - The Devil Is in the Details: Window-based Attention for Image
Compression [58.1577742463617]
既存の学習画像圧縮モデルは畳み込みニューラルネットワーク(CNN)に基づいている。
本稿では,複数種類の注意機構が局所特徴学習に与える影響について検討し,より単純で効果的なウィンドウベースの局所的注意ブロックを提案する。
提案されたウィンドウベースのアテンションは非常に柔軟で、CNNとTransformerモデルを強化するためのプラグイン・アンド・プレイコンポーネントとして機能する可能性がある。
論文 参考訳(メタデータ) (2022-03-16T07:55:49Z) - Direction is what you need: Improving Word Embedding Compression in
Large Language Models [7.736463504706344]
本稿では,AutoEncoderアーキテクチャを利用してトランスフォーマーモデルにトークン埋め込みを圧縮する新たな損失目標を提案する。
提案手法は,初期の言語モデルであるPerplexityにおいて,よく使われるSVDベースの行列分解手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-06-15T14:28:00Z) - Compressing Large-Scale Transformer-Based Models: A Case Study on BERT [41.04066537294312]
事前訓練されたTransformerベースのモデルは、様々な自然言語処理(NLP)タスクに対して最先端のパフォーマンスを達成した。
これらのモデルは数十億のパラメータを持ち、そのため、リソース不足と計算集約が多すぎて、低機能デバイスやアプリケーションに適合しない。
これに対する潜在的な対策の1つはモデル圧縮であり、多くの研究が注目されている。
論文 参考訳(メタデータ) (2020-02-27T09:20:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。