論文の概要: Large Product Key Memory for Pretrained Language Models
- arxiv url: http://arxiv.org/abs/2010.03881v1
- Date: Thu, 8 Oct 2020 10:19:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 12:06:01.370602
- Title: Large Product Key Memory for Pretrained Language Models
- Title(参考訳): 事前学習型言語モデルのための大規模製品キーメモリ
- Authors: Gyuwan Kim and Tae-Hwan Jung
- Abstract要約: 製品キーメモリ(PKM)は、計算オーバーヘッドの少ないモデル容量を効率的に増やし、予測精度を向上させる。
近年のPLM(Pretrained Language Model)の成功に触発されて,多種多様なNLPタスクに適する大規模なPKMをPLMに組み込む方法について検討した。
- 参考スコア(独自算出の注目度): 12.932177565788974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Product key memory (PKM) proposed by Lample et al. (2019) enables to improve
prediction accuracy by increasing model capacity efficiently with insignificant
computational overhead. However, their empirical application is only limited to
causal language modeling. Motivated by the recent success of pretrained
language models (PLMs), we investigate how to incorporate large PKM into PLMs
that can be finetuned for a wide variety of downstream NLP tasks. We define a
new memory usage metric, and careful observation using this metric reveals that
most memory slots remain outdated during the training of PKM-augmented models.
To train better PLMs by tackling this issue, we propose simple but effective
solutions: (1) initialization from the model weights pretrained without memory
and (2) augmenting PKM by addition rather than replacing a feed-forward
network. We verify that both of them are crucial for the pretraining of
PKM-augmented PLMs, enhancing memory utilization and downstream performance.
Code and pretrained weights are available at
https://github.com/clovaai/pkm-transformers.
- Abstract(参考訳): Lample et al. (2019) によって提案された製品鍵メモリ (PKM) は、計算オーバーヘッドの少ないモデル容量を効率的に増やし、予測精度を向上させることができる。
しかし、その経験的応用は因果言語モデリングに限られる。
近年のPLM(Pretrained Language Model)の成功に触発されて,多種多様なNLPタスクに対して微調整可能なPKMをPLMに組み込む方法について検討した。
我々は新しいメモリ使用量基準を定義し、この測定値を用いて注意深い観察を行い、PKM強化モデルのトレーニング中にほとんどのメモリスロットが時代遅れであることを明らかにする。
この問題に対処してPLMを改善するために,(1)メモリなしで事前訓練したモデル重みからの初期化,(2)フィードフォワードネットワークを置き換えるのではなく,追加でPKMを増強する,という簡単な方法を提案する。
PKM強化PLMの事前学習には両者が不可欠であることが確認され,メモリ使用率とダウンストリーム性能が向上した。
コードと事前訓練されたウェイトはhttps://github.com/clovaai/pkm-transformers.comで入手できる。
関連論文リスト
- EMP: Enhance Memory in Data Pruning [18.535687216213628]
近年,大規模言語と視覚モデルの性能は高いが,事前学習と微調整のコストが高いため,データセットプルーニングによる学習の高速化に向けた研究が進んでいる。
従来の手法では、サンプルの損失を評価基準として用い、トレーニングに最も「難しい」サンプルを選択することを目的としていた。
本稿では,データのメモリを増大させ,その性能を向上させることにより,高プルーニングレート下でのメモリ不足問題に対処するエンハンスメモリ・プルーニング(EMP)を提案する。
論文 参考訳(メタデータ) (2024-08-28T10:29:52Z) - MoPE-CLIP: Structured Pruning for Efficient Vision-Language Models with
Module-wise Pruning Error Metric [57.3330687266266]
より小さな事前学習モデルを用いてCLIPモデルに等級に基づくプルーニングを適用すると、柔軟性が低下し、性能が低下することがわかった。
The Module-wise Pruning Error (MoPE) metric, we introduced a unified pruning framework for both pre-training and task-specific fine-tuning compression stage。
論文 参考訳(メタデータ) (2024-03-12T17:24:26Z) - Frustratingly Simple Memory Efficiency for Pre-trained Language Models
via Dynamic Embedding Pruning [42.652021176354644]
プレトレーニング言語モデル(PLM)のメモリフットプリントは、メモリ制限された設定でのデプロイメントを妨げる可能性がある。
本稿では, 組込み行列のメモリフットプリントを最小化するために, この発見を活用する, 単純かつ効果的な手法を提案する。
このアプローチは、幅広いモデルやタスクにわたるメモリ使用量を大幅に削減することを示している。
論文 参考訳(メタデータ) (2023-09-15T19:00:00Z) - MiniLLM: Knowledge Distillation of Large Language Models [112.93051247165089]
知識蒸留(KD)は,大規模言語モデル(LLM)の高い計算要求を低減させる,有望な手法である。
より小さな言語モデルにLPMを蒸留するKD手法を提案する。
提案手法は,120Mから13Bのパラメータを持つ異なるモデルファミリに対してスケーラブルである。
論文 参考訳(メタデータ) (2023-06-14T14:44:03Z) - Make Pre-trained Model Reversible: From Parameter to Memory Efficient
Fine-Tuning [6.451743797015637]
本稿では,事前学習した言語モデルに対するメモリ効率のよい微調整(MEFT)を提案する。
MEFTはアダプタをPLMに挿入し、PLMの開始点を保ち、追加の事前訓練なしで可逆的にすることができる。
MEFTは、トレーニング可能なパラメータの無視量でフル微調整の84%まで、アクティベーションメモリを大幅に削減する。
論文 参考訳(メタデータ) (2023-06-01T09:26:17Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - METRO: Efficient Denoising Pretraining of Large Scale Autoencoding
Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。
我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。
結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-04-13T21:39:15Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。