論文の概要: READ: Recurrent Adaptation of Large Transformers
- arxiv url: http://arxiv.org/abs/2305.15348v1
- Date: Wed, 24 May 2023 16:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 14:12:59.503238
- Title: READ: Recurrent Adaptation of Large Transformers
- Title(参考訳): READ: 大形変圧器の繰り返し適応
- Authors: Sid Wang, John Nguyen, Ke Li, Carole-Jean Wu
- Abstract要約: モデルサイズとタスク数が増加するにつれて、微調整の大規模トランスフォーマーは実用的ではない。
textbfREcurrent textbfADaption (READ) を導入する。
- 参考スコア(独自算出の注目度): 6.0031415516812725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning large-scale Transformers has led to the explosion of many AI
applications across Natural Language Processing and Computer Vision tasks.
However, fine-tuning all pre-trained model parameters becomes impractical as
the model size and number of tasks increase. Parameter-efficient transfer
learning (PETL) methods aim to address these challenges. While effective in
reducing the number of trainable parameters, PETL methods still require
significant energy and computational resources to fine-tune. In this paper, we
introduce \textbf{RE}current \textbf{AD}aption (READ) -- a lightweight and
memory-efficient fine-tuning method -- to overcome the limitations of the
current PETL approaches. Specifically, READ inserts a small RNN network
alongside the backbone model so that the model does not have to back-propagate
through the large backbone network. Through comprehensive empirical evaluation
of the GLUE benchmark, we demonstrate READ can achieve a $56\%$ reduction in
the training memory consumption and an $84\%$ reduction in the GPU energy usage
while retraining high model quality compared to full-tuning. Additionally, the
model size of READ does not grow with the backbone model size, making it a
highly scalable solution for fine-tuning large Transformers.
- Abstract(参考訳): 微調整された大規模なトランスフォーマーは、自然言語処理やコンピュータビジョンタスクにまたがる多くのAIアプリケーションが急増した。
しかし,モデルのサイズやタスク数が増加するにつれて,事前学習したモデルパラメータの微調整は不可能となる。
パラメータ効率変換学習(PETL)法は,これらの課題に対処することを目的としている。
PETL法はトレーニング可能なパラメータの数を削減できるが、微調整には依然としてかなりのエネルギーと計算資源を必要とする。
本稿では,従来のPETLアプローチの限界を克服するために,軽量でメモリ効率のよい微調整法である \textbf{RE}current \textbf{AD}aption (READ) を導入する。
具体的には、readはbackboneモデルの横に小さなrnnネットワークを挿入するので、モデルがbackboneネットワークをバックプロパゲートする必要がなくなる。
GLUEベンチマークの総合的な経験的評価を通じて、READはトレーニングメモリ使用量の5,6\%の削減とGPUエネルギー使用量の8,4\%の削減を達成でき、フルチューニングと比較してモデル品質をトレーニングできることを示した。
さらに、読み取りのモデルサイズはバックボーンモデルサイズでは成長せず、大規模なトランスフォーマーを微調整するための高度にスケーラブルなソリューションとなる。
関連論文リスト
- DTL: Disentangled Transfer Learning for Visual Recognition [21.549234013998255]
軽量なコンパクトサイドネットワーク(CSN)を用いて、トレーニング可能なパラメータをバックボーンから切り離すDTL(Disentangled Transfer Learning)を導入する。
提案手法は,大量のGPUメモリ使用量とトレーニング可能なパラメータを削減できるだけでなく,既存のPETL法よりも高い精度で性能を向上する。
論文 参考訳(メタデータ) (2023-12-13T02:51:26Z) - PELA: Learning Parameter-Efficient Models with Low-Rank Approximation [16.9278983497498]
そこで本研究では,中間学習段階を導入することにより,事前学習モデルのパラメータ効率を向上させる手法を提案する。
これにより、下流の微調整タスクにローランクモデルの直接的かつ効率的な利用が可能になる。
論文 参考訳(メタデータ) (2023-10-16T07:17:33Z) - Efficient Adaptation of Large Vision Transformer via Adapter
Re-Composing [8.88477151877883]
高容量事前学習モデルはコンピュータビジョンにおける問題解決に革命をもたらした。
本稿では,効率的な事前学習モデル適応に対処する新しい適応型再コンパイル(ARC)戦略を提案する。
提案手法は適応パラメータの再利用可能性について考察し,パラメータ共有方式を提案する。
論文 参考訳(メタデータ) (2023-10-10T01:04:15Z) - Parameter and Computation Efficient Transfer Learning for
Vision-Language Pre-trained Models [79.34513906324727]
本稿では,視覚言語事前学習モデルのためのパラメータと効率的な伝達学習(PCETL)を提案する。
そこで本研究では,新しい動的アーキテクチャスキップ(DAS)アプローチを効果的PCETLに適用する。
論文 参考訳(メタデータ) (2023-09-04T09:34:33Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of
Language Model [92.55145016562867]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - PVP: Pre-trained Visual Parameter-Efficient Tuning [29.05396521860764]
大規模事前学習型トランスフォーマーは、様々なコンピュータビジョンタスクにおいて顕著な成功を収めている。
計算とストレージのコストが高いため、これらのモデルを下流タスクのために完全に微調整することは依然として非常に困難である。
事前学習型ビジュアルを提案する。
効率的な(PVP)チューニングフレームワーク - 最初にパラメータ効率のチューニングモジュールを事前トレーニングし、次に事前トレーニングされたモジュールを活用する。
論文 参考訳(メタデータ) (2023-04-26T15:55:29Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Train Large, Then Compress: Rethinking Model Size for Efficient Training
and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。
まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。
これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文 参考訳(メタデータ) (2020-02-26T21:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。