論文の概要: Neural Architecture Search for Parameter-Efficient Fine-tuning of Large
Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2305.16597v1
- Date: Fri, 26 May 2023 03:01:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 17:08:37.672493
- Title: Neural Architecture Search for Parameter-Efficient Fine-tuning of Large
Pre-trained Language Models
- Title(参考訳): 大規模事前学習言語モデルのパラメータ効率の微調整のためのニューラルアーキテクチャ探索
- Authors: Neal Lawton, Anoop Kumar, Govind Thattai, Aram Galstyan, Greg Ver
Steeg
- Abstract要約: 本研究では,構造的および非構造的プルーニングによるPETアーキテクチャの学習に有効なNAS手法を提案する。
本稿では,本アルゴリズムの有効性を実証するGLUE実験を行い,PET設計選択が実際の性能に与える影響について考察する。
- 参考スコア(独自算出の注目度): 25.33932250843436
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Parameter-efficient tuning (PET) methods fit pre-trained language models
(PLMs) to downstream tasks by either computing a small compressed update for a
subset of model parameters, or appending and fine-tuning a small number of new
model parameters to the pre-trained network. Hand-designed PET architectures
from the literature perform well in practice, but have the potential to be
improved via automated neural architecture search (NAS). We propose an
efficient NAS method for learning PET architectures via structured and
unstructured pruning. We present experiments on GLUE demonstrating the
effectiveness of our algorithm and discuss how PET architectural design choices
affect performance in practice.
- Abstract(参考訳): パラメータ効率チューニング(PET)法は、モデルパラメータのサブセットに対する小さな圧縮更新を計算したり、トレーニング済みのネットワークに少数の新しいモデルパラメータを追加して微調整することで、事前訓練された言語モデル(PLM)を下流タスクに適合させる。
手作業で設計したPETアーキテクチャは、実際によく機能するが、自動ニューラルアーキテクチャサーチ(NAS)によって改善される可能性がある。
構造的および非構造的プルーニングによるPETアーキテクチャ学習のための効率的なNAS手法を提案する。
本稿では,本アルゴリズムの有効性を実証するGLUE実験を行い,PET設計選択が実際の性能に与える影響について考察する。
関連論文リスト
- Efficient Language Modeling for Low-Resource Settings with Hybrid RNN-Transformer Architectures [8.442206285783463]
トランスフォーマーベースの言語モデルは、最近テキスト生成における活発な研究の最前線にある。
これらのモデルの進歩は、数十億のパラメータ数とペタフロップ/秒単位の計算要求によって、禁止的なトレーニングコストの価格で実現されている。
注目層をフィードフォワードと準リカレントニューラルネットワーク層に選択的に置き換えることで,低データ方式におけるモデル性能向上のためのトランスフォーマーアーキテクチャについて検討する。
論文 参考訳(メタデータ) (2025-02-02T01:05:09Z) - UniPET-SPK: A Unified Framework for Parameter-Efficient Tuning of Pre-trained Speech Models for Robust Speaker Verification [32.3387409534726]
本研究では,大規模事前学習型SSL音声モデルの話者検証課題に対するパラメータ効率調整法について検討した。
i)アダプタチューニング法,(ii)プロンプトチューニング法,および(iii)動的に学習可能なゲーティング機構でアダプタチューニングとプロンプトチューニングを効果的に組み込んだ統合フレームワークの3つのPET手法を提案する。
提案したUniPET-SPKは、異なるデータセットとシナリオにマッチするPETメソッドの最適な混合を見つけることを学ぶ。
論文 参考訳(メタデータ) (2025-01-27T22:26:37Z) - PETapter: Leveraging PET-style classification heads for modular few-shot parameter-efficient fine-tuning [1.0541541376305243]
データ不足や言語モデルのサイズの増大といった課題を克服するためには、少ないショットの学習とパラメータ効率の微調整が不可欠である。
本稿では,PEFT法とPETスタイルの分類ヘッドを効果的に組み合わせ,少数ショット学習能力を向上するPETapterを提案する。
PETapter はパターン探索トレーニング (PET) を用いて数発のファインチューニングに匹敵する性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-12-06T11:49:18Z) - HiDe-PET: Continual Learning via Hierarchical Decomposition of Parameter-Efficient Tuning [55.88910947643436]
予備学習モデル(PTM)とパラメータ効率チューニング(PET)を組み合わせた連続学習(CL)統合フレームワークを提案する。
タスク固有知識とタスク共有知識を取り入れることで目的を明示的に最適化する革新的な手法である階層分解PET(HiDe-PET)を提案する。
提案手法は,近年の強いベースラインの幅広いスペクトルに対して,極めて優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-07T01:50:25Z) - Mixture-of-Linguistic-Experts Adapters for Improving and Interpreting
Pre-trained Language Models [22.977852629450346]
本稿では,言語モデルに言語構造を注入することで,2つの人気のある研究領域を組み合わせる手法を提案する。
本研究では,異なる言語構造をコードする並列アダプタモジュールを,Mixture-of-Linguistic-Expertsアーキテクチャを用いて組み合わせる。
実験の結果,本手法はパラメータ数に比較して,最先端のPEFT法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-24T23:29:06Z) - Exploring the Impact of Model Scaling on Parameter-Efficient Tuning [100.61202305296275]
大規模事前学習言語モデル(PLM)を効果的に駆動できるスケーリング効率チューニング(PET)法
小型PLMでは、PET法には通常顕著な性能差がある。
本稿では,Arbitrary PET (APET) 法という,より柔軟なPET法を提案する。
論文 参考訳(メタデータ) (2023-06-04T10:10:54Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Parameter-Efficient Transfer from Sequential Behaviors for User Modeling
and Recommendation [111.44445634272235]
本稿では,PeterRecと呼ばれるパラメータ効率のよい移動学習アーキテクチャを提案する。
PeterRecは、トレーニング済みのパラメータを、一連の再学習ニューラルネットワークを注入することで、微調整中に修正されないようにする。
我々は5つの下流タスクにおいて学習したユーザ表現の有効性を示すために、広範囲な実験的アブレーションを行う。
論文 参考訳(メタデータ) (2020-01-13T14:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。