論文の概要: Efficient GPT Model Pre-training using Tensor Train Matrix
Representation
- arxiv url: http://arxiv.org/abs/2306.02697v1
- Date: Mon, 5 Jun 2023 08:38:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 16:12:01.100767
- Title: Efficient GPT Model Pre-training using Tensor Train Matrix
Representation
- Title(参考訳): テンソルトレイン行列表現を用いた効率的なGPTモデル事前学習
- Authors: Viktoriia Chekalina, Georgii Novikov, Julia Gusak, Ivan Oseledets,
Alexander Panchenko
- Abstract要約: 大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
- 参考スコア(独自算出の注目度): 65.96485282393361
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale transformer models have shown remarkable performance in language
modelling tasks. However, such models feature billions of parameters, leading
to difficulties in their deployment and prohibitive training costs from
scratch. To reduce the number of the parameters in the GPT-2 architecture, we
replace the matrices of fully-connected layers with the corresponding Tensor
Train Matrix~(TTM) structure. Finally, we customize forward and backward
operations through the TTM-based layer for simplicity and the stableness of
further training. % The resulting GPT-2-based model stores up to 40% fewer
parameters, showing the perplexity comparable to the original model. On the
downstream tasks, including language understanding and text summarization, the
model performs similarly to the original GPT-2 model. The proposed tensorized
layers could be used to efficiently pre-training other Transformer models.
- Abstract(参考訳): 大規模トランスモデルは言語モデリングタスクにおいて顕著な性能を示した。
しかし、こうしたモデルは何十億というパラメータを特徴としており、配置の困難とトレーニングコストの削減に繋がる。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTensor Train Matrix~(TTM)構造に置き換える。
最後に,ttmベースの層を通して前方および後方の操作をカスタマイズし,単純化とさらなるトレーニングの安定性を確認した。
% GPT-2ベースのモデルでは最大40%のパラメータを格納し,元のモデルに匹敵するパープレキシティを示した。
言語理解やテキスト要約を含む下流タスクでは、モデルは元のGPT-2モデルと同様に機能する。
提案するテンソル化層は、他のトランスフォーマーモデルを効率的に事前学習するために使用できる。
関連論文リスト
- Trainable Transformer in Transformer [48.754918968374334]
本稿では,Transformer in Transformer(略してTinT)の効率的な構築法を提案する。
TinTは多くの変圧器の変種に対応しており、その設計思想は変圧器内部の単純なモデルの過去のインスタンス化の効率も改善している。
これらの結果から,大規模事前学習言語モデルでは複雑な推論が可能であることが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:53:39Z) - TensorGPT: Efficient Compression of the Embedding Layer in LLMs based on
the Tensor-Train Decomposition [22.84674270619026]
本研究は, Matrix-Train Decomposition (TTD) に基づくアプローチを提案する。
各トークンの埋め込みは、分散的に効率的に計算できる製品状態(MPS)として扱われる。
GPT-2実験の結果, 埋め込み層を最大38.40倍圧縮することができ, 圧縮係数が3.31倍であれば, 従来のGPT-2モデルよりも優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-02T09:33:09Z) - Model-Generated Pretraining Signals Improves Zero-Shot Generalization of
Text-to-Text Transformers [98.30298332661323]
本稿では,T5などのテキスト変換器のゼロショット一般化におけるモデル生成信号の有効性について検討する。
我々は新しいモデルMETRO-T0を開発し、ELECTRA-Style事前学習戦略を用いて事前訓練を行い、次にNLPタスクの混合を即時微調整する。
その結果,METRO-T0の有効性は,パラメータのよりバランスの取れた寄与と,それらの能力の有効利用に起因していることが判明した。
論文 参考訳(メタデータ) (2023-05-21T21:06:23Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Leveraging Pre-trained Models for Failure Analysis Triplets Generation [0.0]
我々は、故障解析トリプレット(FAT)を生成する下流タスクにおいて、トランスフォーマーモデルのような事前訓練された因果言語モデルの注意機構を活用する。
生成事前学習型変換器2(GPT2)は、故障解析三重項生成(FATG)タスクにおいて、他の変換器モデルよりも優れていた。
特に, GPT2(1.5Bパラメータで学習)は, ROUGEにおいて, トレーニング済みBERT, BART, GPT3よりも高い性能を示した。
論文 参考訳(メタデータ) (2022-10-31T17:21:15Z) - Improving Neural Machine Translation by Denoising Training [95.96569884410137]
本稿では,ニューラルネットワーク翻訳のためのトレーニングDoTの簡易かつ効果的な事前学習戦略を提案する。
モデルパラメータを、初期段階のソースおよびターゲットサイドのDenoisingタスクで更新し、正常にモデルをチューニングします。
実験によると、DoTは12のバイリンガルと16の多言語方向にわたるニューラルマシン翻訳性能を一貫して改善している。
論文 参考訳(メタデータ) (2022-01-19T00:11:38Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - Adding Recurrence to Pretrained Transformers for Improved Efficiency and
Context Size [41.624797099537375]
本稿では,事前学習したトランスフォーマー言語モデルを適用する新しい手法を提案する。
PG-19 と WikiText-103 コーパスの未修正 GPT-2 モデルよりも難易度が高いことがわかった。
論文 参考訳(メタデータ) (2020-08-16T23:19:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。