論文の概要: Neural Architecture Search for Parameter-Efficient Fine-tuning of Large
Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2305.16597v1
- Date: Fri, 26 May 2023 03:01:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 17:08:37.672493
- Title: Neural Architecture Search for Parameter-Efficient Fine-tuning of Large
Pre-trained Language Models
- Title(参考訳): 大規模事前学習言語モデルのパラメータ効率の微調整のためのニューラルアーキテクチャ探索
- Authors: Neal Lawton, Anoop Kumar, Govind Thattai, Aram Galstyan, Greg Ver
Steeg
- Abstract要約: 本研究では,構造的および非構造的プルーニングによるPETアーキテクチャの学習に有効なNAS手法を提案する。
本稿では,本アルゴリズムの有効性を実証するGLUE実験を行い,PET設計選択が実際の性能に与える影響について考察する。
- 参考スコア(独自算出の注目度): 25.33932250843436
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Parameter-efficient tuning (PET) methods fit pre-trained language models
(PLMs) to downstream tasks by either computing a small compressed update for a
subset of model parameters, or appending and fine-tuning a small number of new
model parameters to the pre-trained network. Hand-designed PET architectures
from the literature perform well in practice, but have the potential to be
improved via automated neural architecture search (NAS). We propose an
efficient NAS method for learning PET architectures via structured and
unstructured pruning. We present experiments on GLUE demonstrating the
effectiveness of our algorithm and discuss how PET architectural design choices
affect performance in practice.
- Abstract(参考訳): パラメータ効率チューニング(PET)法は、モデルパラメータのサブセットに対する小さな圧縮更新を計算したり、トレーニング済みのネットワークに少数の新しいモデルパラメータを追加して微調整することで、事前訓練された言語モデル(PLM)を下流タスクに適合させる。
手作業で設計したPETアーキテクチャは、実際によく機能するが、自動ニューラルアーキテクチャサーチ(NAS)によって改善される可能性がある。
構造的および非構造的プルーニングによるPETアーキテクチャ学習のための効率的なNAS手法を提案する。
本稿では,本アルゴリズムの有効性を実証するGLUE実験を行い,PET設計選択が実際の性能に与える影響について考察する。
関連論文リスト
- HiDe-PET: Continual Learning via Hierarchical Decomposition of Parameter-Efficient Tuning [55.88910947643436]
予備学習モデル(PTM)とパラメータ効率チューニング(PET)を組み合わせた連続学習(CL)統合フレームワークを提案する。
タスク固有知識とタスク共有知識を取り入れることで目的を明示的に最適化する革新的な手法である階層分解PET(HiDe-PET)を提案する。
提案手法は,近年の強いベースラインの幅広いスペクトルに対して,極めて優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-07T01:50:25Z) - Mixture-of-Linguistic-Experts Adapters for Improving and Interpreting
Pre-trained Language Models [22.977852629450346]
本稿では,言語モデルに言語構造を注入することで,2つの人気のある研究領域を組み合わせる手法を提案する。
本研究では,異なる言語構造をコードする並列アダプタモジュールを,Mixture-of-Linguistic-Expertsアーキテクチャを用いて組み合わせる。
実験の結果,本手法はパラメータ数に比較して,最先端のPEFT法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-24T23:29:06Z) - Exploring the Impact of Model Scaling on Parameter-Efficient Tuning [100.61202305296275]
大規模事前学習言語モデル(PLM)を効果的に駆動できるスケーリング効率チューニング(PET)法
小型PLMでは、PET法には通常顕著な性能差がある。
本稿では,Arbitrary PET (APET) 法という,より柔軟なPET法を提案する。
論文 参考訳(メタデータ) (2023-06-04T10:10:54Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Proxyless Neural Architecture Adaptation for Supervised Learning and
Self-Supervised Learning [3.766702945560518]
本稿では、再現性と効率のよいプロキシレスニューラルアーキテクチャ適応を提案する。
本手法は,教師付き学習と自己教師型学習の両方に適用できる。
論文 参考訳(メタデータ) (2022-05-15T02:49:48Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Learning Features with Parameter-Free Layers [22.92568642331809]
本稿では、ネットワークアーキテクチャにおける効率的なトレーニング可能なレイヤの代替として、単純なパラメータフリーな操作が好ましいと論じる。
ImageNetデータセットの実験では、パラメータフリーな操作を持つネットワークアーキテクチャは、モデル速度、パラメータ数、FLOPのさらなる効率性の利点を享受できることが示されている。
論文 参考訳(メタデータ) (2022-02-06T14:03:36Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - AutoTinyBERT: Automatic Hyper-parameter Optimization for Efficient
Pre-trained Language Models [46.69439585453071]
アーキテクチャのハイパーパラメータを自動的に検索するために,NAS(One-shot Neural Architecture Search)を採用している。
具体的には,小型PLMの適応的かつ効率的な開発方法を提供するために,ワンショット学習の技術と検索空間を設計する。
提案手法をAutoTinyBERTと命名し,GLUEおよびSQuADベンチマーク上での有効性を評価する。
論文 参考訳(メタデータ) (2021-07-29T00:47:30Z) - Parameter-Efficient Transfer from Sequential Behaviors for User Modeling
and Recommendation [111.44445634272235]
本稿では,PeterRecと呼ばれるパラメータ効率のよい移動学習アーキテクチャを提案する。
PeterRecは、トレーニング済みのパラメータを、一連の再学習ニューラルネットワークを注入することで、微調整中に修正されないようにする。
我々は5つの下流タスクにおいて学習したユーザ表現の有効性を示すために、広範囲な実験的アブレーションを行う。
論文 参考訳(メタデータ) (2020-01-13T14:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。