論文の概要: SPT: Fine-Tuning Transformer-based Language Models Efficiently with
Sparsification
- arxiv url: http://arxiv.org/abs/2312.10365v1
- Date: Sat, 16 Dec 2023 07:44:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 17:05:50.280225
- Title: SPT: Fine-Tuning Transformer-based Language Models Efficiently with
Sparsification
- Title(参考訳): spt:スパルシフィケーションを効率的に行うトランスフォーマーベースの言語モデル
- Authors: Yuntao Gui, Xiao Yan, Peiqi Yin, Han Yang, James Cheng
- Abstract要約: 下流タスクのための微調整トランスフォーマーベースのモデルには、長い実行時間と高いメモリ消費がある。
本稿では,スペーサ性を導入し,トランスフォーマーベースモデルを効率的に微調整するSPTシステムを提案する。
SPTは、最適化されたベースラインを一貫して上回り、ピークメモリ消費を最大50%削減し、微調整を最大2.2倍高速化する。
- 参考スコア(独自算出の注目度): 14.559316921646356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based large language models (e.g., BERT and GPT) achieve great
success, and fine-tuning, which tunes a pre-trained model on a task-specific
dataset, is the standard practice to utilize these models for downstream tasks.
However, Transformer fine-tuning has long running time and high memory
consumption due to the large size of the models. We propose the SPT system to
fine-tune Transformer-based models efficiently by introducing sparsity. We
observe that the memory consumption of Transformer mainly comes from storing
attention weights for multi-head attention (MHA), and the majority of running
time is spent on feed-forward network (FFN). Thus, we design the sparse MHA
module, which computes and stores only large attention weights to reduce memory
consumption, and the routed FFN module, which dynamically activates a subset of
model parameters for each token to reduce computation cost. We implement SPT on
PyTorch and customize CUDA kernels to run sparse MHA and routed FFN
efficiently. Specifically, we use product quantization to identify the large
attention weights and compute attention via sparse matrix multiplication for
sparse MHA. For routed FFN, we batch the tokens according to their activated
model parameters for efficient computation. We conduct extensive experiments to
evaluate SPT on various model configurations. The results show that SPT
consistently outperforms well-optimized baselines, reducing the peak memory
consumption by up to 50% and accelerating fine-tuning by up to 2.2x.
- Abstract(参考訳): トランスフォーマティブベースの大規模言語モデル(bertやgptなど)は大きな成功を収め、タスク固有のデータセット上で事前トレーニングされたモデルをチューニングする微調整は、これらのモデルを下流タスクに利用する標準的なプラクティスである。
しかしながら、トランスフォーマーの微調整は、モデルのサイズが大きいため、長い実行時間と高いメモリ消費を有する。
本稿では,スペーサ性を導入し,トランスフォーマーベースモデルを効率的に微調整するSPTシステムを提案する。
トランスのメモリ消費は主にマルチヘッドアテンション(mha)のための注意重みを格納することから生じ、実行時間の大部分はフィードフォワードネットワーク(ffn)に費やされる。
そこで我々は,メモリ消費を減らすため,大きな注意重みのみを計算・格納するスパースMHAモジュールと,各トークンに対するモデルパラメータのサブセットを動的に活性化して計算コストを低減させるルーティングFFNモジュールを設計する。
我々は PyTorch 上で SPT を実装し,疎MHA を実行し,FFN を効率的にルーティングする CUDA カーネルをカスタマイズする。
具体的には, 積量子化を用いて注意重みを同定し, スパース行列乗算による注意度を計算する。
ルーティングされたFFNに対して,活性化されたモデルパラメータに従ってトークンをバッチ化し,効率的な計算を行う。
様々なモデル構成でsptを評価するための広範囲な実験を行った。
その結果、sptは最適化されたベースラインを一貫して上回り、ピークメモリ消費を最大50%削減し、微調整を最大2.2倍高速化した。
関連論文リスト
- Expanding Sparse Tuning for Low Memory Usage [103.43560327427647]
メモリ使用量が少ないスパースチューニングのためのSNELL(Sparse tuning with kerNelized LoRA)法を提案する。
低メモリ使用量を達成するため、SNELLはスカラー化のための調整可能な行列を2つの学習可能な低ランク行列に分解する。
コンペティションに基づくスペーシフィケーション機構は、チューナブルウェイトインデックスの保存を避けるためにさらに提案される。
論文 参考訳(メタデータ) (2024-11-04T04:58:20Z) - XMoE: Sparse Models with Fine-grained and Adaptive Expert Selection [30.687511115573038]
ツールは、スパースMoEモデルの有効性と効率を高めるために設計された新しいMoEである。
パフォーマンスを犠牲にすることなく、MoE層の計算負荷を50%以上削減しながら、モデルパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2024-02-27T08:18:02Z) - FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency
Trade-off in Language Model Inference [57.119047493787185]
本稿では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56times$wall clock time speedupを無視できる精度低下で実現する方法を示す。
実際、本手法では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56Times$wall clock time speedupを無視できる精度で実現している。
論文 参考訳(メタデータ) (2024-01-08T17:29:16Z) - MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。
2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。
また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - READ: Recurrent Adaptation of Large Transformers [7.982905666062059]
モデルサイズとタスク数が増加するにつれて、微調整の大規模トランスフォーマーは実用的ではない。
textbfREcurrent textbfADaption (READ) を導入する。
論文 参考訳(メタデータ) (2023-05-24T16:59:41Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Fourier Transformer: Fast Long Range Modeling by Removing Sequence
Redundancy with FFT Operator [24.690247474891958]
フーリエ変換器は、様々な大きな事前訓練されたモデルから継承する能力を維持しながら、計算コストを大幅に削減することができる。
本モデルは,長距離モデリングベンチマークLRAにおいて,トランスフォーマーベースモデル間の最先端性能を実現する。
CNN/DailyMailやELI5などのシークエンシャルなシークエンスタスクでは、BARTを継承することで、私たちのモデルは標準のBARTよりも優れています。
論文 参考訳(メタデータ) (2023-05-24T12:33:06Z) - Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。
Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。
多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文 参考訳(メタデータ) (2022-05-23T02:43:45Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。