Fugu-MT 論文翻訳(概要): SPT: Fine-Tuning Transformer-based Language Models Efficiently with Sparsification

論文の概要: SPT: Fine-Tuning Transformer-based Language Models Efficiently with Sparsification

arxiv url: http://arxiv.org/abs/2312.10365v1
Date: Sat, 16 Dec 2023 07:44:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-19 17:05:50.280225
Title: SPT: Fine-Tuning Transformer-based Language Models Efficiently with Sparsification
Title（参考訳）: spt:スパルシフィケーションを効率的に行うトランスフォーマーベースの言語モデル
Authors: Yuntao Gui, Xiao Yan, Peiqi Yin, Han Yang, James Cheng
Abstract要約: 下流タスクのための微調整トランスフォーマーベースのモデルには、長い実行時間と高いメモリ消費がある。本稿では,スペーサ性を導入し,トランスフォーマーベースモデルを効率的に微調整するSPTシステムを提案する。 SPTは、最適化されたベースラインを一貫して上回り、ピークメモリ消費を最大50%削減し、微調整を最大2.2倍高速化する。
参考スコア（独自算出の注目度）: 14.559316921646356
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformer-based large language models (e.g., BERT and GPT) achieve great success, and fine-tuning, which tunes a pre-trained model on a task-specific dataset, is the standard practice to utilize these models for downstream tasks. However, Transformer fine-tuning has long running time and high memory consumption due to the large size of the models. We propose the SPT system to fine-tune Transformer-based models efficiently by introducing sparsity. We observe that the memory consumption of Transformer mainly comes from storing attention weights for multi-head attention (MHA), and the majority of running time is spent on feed-forward network (FFN). Thus, we design the sparse MHA module, which computes and stores only large attention weights to reduce memory consumption, and the routed FFN module, which dynamically activates a subset of model parameters for each token to reduce computation cost. We implement SPT on PyTorch and customize CUDA kernels to run sparse MHA and routed FFN efficiently. Specifically, we use product quantization to identify the large attention weights and compute attention via sparse matrix multiplication for sparse MHA. For routed FFN, we batch the tokens according to their activated model parameters for efficient computation. We conduct extensive experiments to evaluate SPT on various model configurations. The results show that SPT consistently outperforms well-optimized baselines, reducing the peak memory consumption by up to 50% and accelerating fine-tuning by up to 2.2x.
Abstract（参考訳）: トランスフォーマティブベースの大規模言語モデル(bertやgptなど)は大きな成功を収め、タスク固有のデータセット上で事前トレーニングされたモデルをチューニングする微調整は、これらのモデルを下流タスクに利用する標準的なプラクティスである。しかしながら、トランスフォーマーの微調整は、モデルのサイズが大きいため、長い実行時間と高いメモリ消費を有する。本稿では,スペーサ性を導入し,トランスフォーマーベースモデルを効率的に微調整するSPTシステムを提案する。トランスのメモリ消費は主にマルチヘッドアテンション(mha)のための注意重みを格納することから生じ、実行時間の大部分はフィードフォワードネットワーク(ffn)に費やされる。そこで我々は,メモリ消費を減らすため,大きな注意重みのみを計算・格納するスパースMHAモジュールと,各トークンに対するモデルパラメータのサブセットを動的に活性化して計算コストを低減させるルーティングFFNモジュールを設計する。我々は PyTorch 上で SPT を実装し,疎MHA を実行し,FFN を効率的にルーティングする CUDA カーネルをカスタマイズする。具体的には, 積量子化を用いて注意重みを同定し, スパース行列乗算による注意度を計算する。ルーティングされたFFNに対して,活性化されたモデルパラメータに従ってトークンをバッチ化し,効率的な計算を行う。様々なモデル構成でsptを評価するための広範囲な実験を行った。その結果、sptは最適化されたベースラインを一貫して上回り、ピークメモリ消費を最大50%削減し、微調整を最大2.2倍高速化した。

関連論文リスト

Byte Latent Transformer: Patches Scale Better Than Tokens [101.10994909832063]
Byte Latent Transformer (BLT) はバイトを動的サイズのパッチにエンコードする。固定推論コストに対して、BLTはパッチとモデルサイズの両方を同時に拡大することにより、トークン化ベースのモデルよりもはるかに優れたスケーリングを示している。
論文参考訳（メタデータ） (2024-12-13T05:33:32Z)
Expanding Sparse Tuning for Low Memory Usage [103.43560327427647]
メモリ使用量が少ないスパースチューニングのためのSNELL(Sparse tuning with kerNelized LoRA)法を提案する。低メモリ使用量を達成するため、SNELLはスカラー化のための調整可能な行列を2つの学習可能な低ランク行列に分解する。コンペティションに基づくスペーシフィケーション機構は、チューナブルウェイトインデックスの保存を避けるためにさらに提案される。
論文参考訳（メタデータ） (2024-11-04T04:58:20Z)
XMoE: Sparse Models with Fine-grained and Adaptive Expert Selection [30.687511115573038]
ツールは、スパースMoEモデルの有効性と効率を高めるために設計された新しいMoEである。パフォーマンスを犠牲にすることなく、MoE層の計算負荷を50%以上削減しながら、モデルパフォーマンスを向上させることができる。
論文参考訳（メタデータ） (2024-02-27T08:18:02Z)
FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency Trade-off in Language Model Inference [57.119047493787185]
本稿では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56times$wall clock time speedupを無視できる精度低下で実現する方法を示す。実際、本手法では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56Times$wall clock time speedupを無視できる精度で実現している。
論文参考訳（メタデータ） (2024-01-08T17:29:16Z)
WeGeFT: Weight-Generative Fine-Tuning for Multi-Faceted Efficient Adaptation of Large Models [8.481707805559589]
WeGeFT(Weight-Generative Fine-Tuning)は、トレーニング済みの重みから直接微調整重みを生成することを学習する新しい手法である。この設計は、パラメータ、表現、計算、メモリの多面的効率を実現し、LoRAとその変種の性能を維持したり、超えたりしている。
論文参考訳（メタデータ） (2023-12-01T16:33:57Z)
MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。 2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文参考訳（メタデータ） (2023-10-11T17:57:14Z)
READ: Recurrent Adaptation of Large Transformers [7.982905666062059]
モデルサイズとタスク数が増加するにつれて、微調整の大規模トランスフォーマーは実用的ではない。 textbfREcurrent textbfADaption (READ) を導入する。
論文参考訳（メタデータ） (2023-05-24T16:59:41Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
Fourier Transformer: Fast Long Range Modeling by Removing Sequence Redundancy with FFT Operator [24.690247474891958]
フーリエ変換器は、様々な大きな事前訓練されたモデルから継承する能力を維持しながら、計算コストを大幅に削減することができる。本モデルは,長距離モデリングベンチマークLRAにおいて,トランスフォーマーベースモデル間の最先端性能を実現する。 CNN/DailyMailやELI5などのシークエンシャルなシークエンスタスクでは、BARTを継承することで、私たちのモデルは標準のBARTよりも優れています。
論文参考訳（メタデータ） (2023-05-24T12:33:06Z)
Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。 Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文参考訳（メタデータ） (2022-05-23T02:43:45Z)
Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。 Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。 ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文参考訳（メタデータ） (2021-11-22T11:23:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。