論文の概要: Frustratingly Simple Memory Efficiency for Pre-trained Language Models
via Dynamic Embedding Pruning
- arxiv url: http://arxiv.org/abs/2309.08708v1
- Date: Fri, 15 Sep 2023 19:00:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 19:53:46.799698
- Title: Frustratingly Simple Memory Efficiency for Pre-trained Language Models
via Dynamic Embedding Pruning
- Title(参考訳): 動的埋め込みプルーニングによる事前学習言語モデルのフラストレーション的単純メモリ効率
- Authors: Miles Williams, Nikolaos Aletras
- Abstract要約: プレトレーニング言語モデル(PLM)のメモリフットプリントは、メモリ制限された設定でのデプロイメントを妨げる可能性がある。
本稿では, 組込み行列のメモリフットプリントを最小化するために, この発見を活用する, 単純かつ効果的な手法を提案する。
このアプローチは、幅広いモデルやタスクにわたるメモリ使用量を大幅に削減することを示している。
- 参考スコア(独自算出の注目度): 42.652021176354644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The extensive memory footprint of pre-trained language models (PLMs) can
hinder deployment in memory-constrained settings, such as cloud environments or
on-device. PLMs use embedding matrices to represent extensive vocabularies,
forming a large proportion of the model parameters. While previous work towards
parameter-efficient PLM development has considered pruning parameters within
the transformer layers, pruning the embedding matrix as part of fine-tuning or
inference has yet to be explored. We first demonstrate that a significant
proportion of the vocabulary remains unused in these scenarios. We then propose
a simple yet effective approach that leverages this finding to minimize the
memory footprint of the embedding matrix. We show that this approach provides
substantial reductions in memory usage across a wide range of models and tasks.
Notably, our approach maintains equivalent downstream task performance while
allowing a more efficient use of compute resources.
- Abstract(参考訳): 事前訓練された言語モデル(PLM)の広範なメモリフットプリントは、クラウド環境やオンデバイスなど、メモリ制限された設定でのデプロイメントを妨げる可能性がある。
PLMは埋め込み行列を用いて広い語彙を表現し、モデルパラメータのかなりの割合を形成する。
従来,パラメータ効率の高いPLM開発に向けた研究は変圧器層内のプルーニングパラメータを検討したが,微細調整や推論の一部として埋め込み行列をプルーニングすることはまだ検討されていない。
まず、これらのシナリオでは語彙のかなりの割合が使われていないことを示す。
次に、この発見を利用して埋め込み行列のメモリフットプリントを最小化する、単純かつ効果的なアプローチを提案する。
このアプローチは、幅広いモデルやタスクにわたるメモリ使用量を大幅に削減することを示している。
特に当社のアプローチでは,計算リソースをより効率的に利用しながら,同等のダウンストリームタスクパフォーマンスを維持しています。
関連論文リスト
- Expanding Sparse Tuning for Low Memory Usage [103.43560327427647]
メモリ使用量が少ないスパースチューニングのためのSNELL(Sparse tuning with kerNelized LoRA)法を提案する。
低メモリ使用量を達成するため、SNELLはスカラー化のための調整可能な行列を2つの学習可能な低ランク行列に分解する。
コンペティションに基づくスペーシフィケーション機構は、チューナブルウェイトインデックスの保存を避けるためにさらに提案される。
論文 参考訳(メタデータ) (2024-11-04T04:58:20Z) - SVFit: Parameter-Efficient Fine-Tuning of Large Pre-Trained Models Using Singular Values [12.137869917556415]
大規模事前学習モデル(LPM)は、多種多様な自然言語処理やコンピュータビジョンタスクにおいて例外的な性能を示した。
これらのモデルを完全に微調整すると、特にリソース制約のある環境では、大きなメモリの問題が発生します。
本稿では,臨界特異値をトレーニング可能なパラメータとして用いた低ランク行列に対する特異値分解(SVD)を利用した新しいPEFT手法であるSVFitを提案する。
論文 参考訳(メタデータ) (2024-09-09T08:44:53Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - Athena: Efficient Block-Wise Post-Training Quantization for Large Language Models Using Second-Order Matrix Derivative Information [5.756323337411276]
大規模言語モデル(LLM)は、機械翻訳、テキスト生成、感情分析などの高度な自然言語処理タスクを持つ。
数十億のパラメータで構成されるその大きなサイズは、ストレージ、計算、デプロイメントの課題を提起する。
我々は,LLMの効率的なブロックワイズ後量子化のための新しいアルゴリズムであるAthenaを提案する。
論文 参考訳(メタデータ) (2024-05-24T03:14:29Z) - Make Pre-trained Model Reversible: From Parameter to Memory Efficient
Fine-Tuning [6.451743797015637]
本稿では,事前学習した言語モデルに対するメモリ効率のよい微調整(MEFT)を提案する。
MEFTはアダプタをPLMに挿入し、PLMの開始点を保ち、追加の事前訓練なしで可逆的にすることができる。
MEFTは、トレーニング可能なパラメータの無視量でフル微調整の84%まで、アクティベーションメモリを大幅に削減する。
論文 参考訳(メタデータ) (2023-06-01T09:26:17Z) - Dynamic Context Pruning for Efficient and Interpretable Autoregressive Transformers [29.319666323947708]
本稿では,モデル表現性を保ちながら文脈情報を動的に生成する手法を提案する。
本手法では,文脈からどの非形式的トークンをドロップできるかを学習可能なメカニズムを用いて決定する。
我々の参照実装は、推論スループットの増大とメモリの節約を最大2ドルまで達成します。
論文 参考訳(メタデータ) (2023-05-25T07:39:41Z) - Numerical Optimizations for Weighted Low-rank Estimation on Language
Model [73.12941276331316]
Singular value decomposition (SVD) は、より小さい行列でターゲット行列を近似する最も一般的な圧縮手法の1つである。
標準SVDは行列内のパラメータを同じ重要性で扱うが、これは単純だが非現実的な仮定である。
本手法は,ニューラルベース言語モデルにおいて,現在のSOTA法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-02T00:58:02Z) - Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。
Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。
多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文 参考訳(メタデータ) (2022-05-23T02:43:45Z) - Direction is what you need: Improving Word Embedding Compression in
Large Language Models [7.736463504706344]
本稿では,AutoEncoderアーキテクチャを利用してトランスフォーマーモデルにトークン埋め込みを圧縮する新たな損失目標を提案する。
提案手法は,初期の言語モデルであるPerplexityにおいて,よく使われるSVDベースの行列分解手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-06-15T14:28:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。