Fugu-MT 論文翻訳(概要): Neural Architecture Search for Parameter-Efficient Fine-tuning of Large Pre-trained Language Models

論文の概要: Neural Architecture Search for Parameter-Efficient Fine-tuning of Large Pre-trained Language Models

arxiv url: http://arxiv.org/abs/2305.16597v1
Date: Fri, 26 May 2023 03:01:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-29 17:08:37.672493
Title: Neural Architecture Search for Parameter-Efficient Fine-tuning of Large Pre-trained Language Models
Title（参考訳）: 大規模事前学習言語モデルのパラメータ効率の微調整のためのニューラルアーキテクチャ探索
Authors: Neal Lawton, Anoop Kumar, Govind Thattai, Aram Galstyan, Greg Ver Steeg
Abstract要約: 本研究では,構造的および非構造的プルーニングによるPETアーキテクチャの学習に有効なNAS手法を提案する。本稿では,本アルゴリズムの有効性を実証するGLUE実験を行い,PET設計選択が実際の性能に与える影響について考察する。
参考スコア（独自算出の注目度）: 25.33932250843436
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Parameter-efficient tuning (PET) methods fit pre-trained language models (PLMs) to downstream tasks by either computing a small compressed update for a subset of model parameters, or appending and fine-tuning a small number of new model parameters to the pre-trained network. Hand-designed PET architectures from the literature perform well in practice, but have the potential to be improved via automated neural architecture search (NAS). We propose an efficient NAS method for learning PET architectures via structured and unstructured pruning. We present experiments on GLUE demonstrating the effectiveness of our algorithm and discuss how PET architectural design choices affect performance in practice.
Abstract（参考訳）: パラメータ効率チューニング(PET)法は、モデルパラメータのサブセットに対する小さな圧縮更新を計算したり、トレーニング済みのネットワークに少数の新しいモデルパラメータを追加して微調整することで、事前訓練された言語モデル(PLM)を下流タスクに適合させる。手作業で設計したPETアーキテクチャは、実際によく機能するが、自動ニューラルアーキテクチャサーチ(NAS)によって改善される可能性がある。構造的および非構造的プルーニングによるPETアーキテクチャ学習のための効率的なNAS手法を提案する。本稿では,本アルゴリズムの有効性を実証するGLUE実験を行い,PET設計選択が実際の性能に与える影響について考察する。

関連論文リスト

Efficient Language Modeling for Low-Resource Settings with Hybrid RNN-Transformer Architectures [8.442206285783463]
トランスフォーマーベースの言語モデルは、最近テキスト生成における活発な研究の最前線にある。これらのモデルの進歩は、数十億のパラメータ数とペタフロップ/秒単位の計算要求によって、禁止的なトレーニングコストの価格で実現されている。注目層をフィードフォワードと準リカレントニューラルネットワーク層に選択的に置き換えることで,低データ方式におけるモデル性能向上のためのトランスフォーマーアーキテクチャについて検討する。
論文参考訳（メタデータ） (2025-02-02T01:05:09Z)
UniPET-SPK: A Unified Framework for Parameter-Efficient Tuning of Pre-trained Speech Models for Robust Speaker Verification [32.3387409534726]
本研究では,大規模事前学習型SSL音声モデルの話者検証課題に対するパラメータ効率調整法について検討した。 i)アダプタチューニング法,(ii)プロンプトチューニング法,および(iii)動的に学習可能なゲーティング機構でアダプタチューニングとプロンプトチューニングを効果的に組み込んだ統合フレームワークの3つのPET手法を提案する。提案したUniPET-SPKは、異なるデータセットとシナリオにマッチするPETメソッドの最適な混合を見つけることを学ぶ。
論文参考訳（メタデータ） (2025-01-27T22:26:37Z)
PETapter: Leveraging PET-style classification heads for modular few-shot parameter-efficient fine-tuning [1.0541541376305243]
データ不足や言語モデルのサイズの増大といった課題を克服するためには、少ないショットの学習とパラメータ効率の微調整が不可欠である。本稿では,PEFT法とPETスタイルの分類ヘッドを効果的に組み合わせ,少数ショット学習能力を向上するPETapterを提案する。 PETapter はパターン探索トレーニング (PET) を用いて数発のファインチューニングに匹敵する性能を発揮することを示す。
論文参考訳（メタデータ） (2024-12-06T11:49:18Z)
HiDe-PET: Continual Learning via Hierarchical Decomposition of Parameter-Efficient Tuning [55.88910947643436]
予備学習モデル(PTM)とパラメータ効率チューニング(PET)を組み合わせた連続学習(CL)統合フレームワークを提案する。タスク固有知識とタスク共有知識を取り入れることで目的を明示的に最適化する革新的な手法である階層分解PET(HiDe-PET)を提案する。提案手法は,近年の強いベースラインの幅広いスペクトルに対して,極めて優れた性能を示す。
論文参考訳（メタデータ） (2024-07-07T01:50:25Z)
Mixture-of-Linguistic-Experts Adapters for Improving and Interpreting Pre-trained Language Models [22.977852629450346]
本稿では,言語モデルに言語構造を注入することで,2つの人気のある研究領域を組み合わせる手法を提案する。本研究では,異なる言語構造をコードする並列アダプタモジュールを,Mixture-of-Linguistic-Expertsアーキテクチャを用いて組み合わせる。実験の結果,本手法はパラメータ数に比較して,最先端のPEFT法より優れていることがわかった。
論文参考訳（メタデータ） (2023-10-24T23:29:06Z)
Exploring the Impact of Model Scaling on Parameter-Efficient Tuning [100.61202305296275]
大規模事前学習言語モデル(PLM)を効果的に駆動できるスケーリング効率チューニング(PET)法小型PLMでは、PET法には通常顕著な性能差がある。本稿では,Arbitrary PET (APET) 法という,より柔軟なPET法を提案する。
論文参考訳（メタデータ） (2023-06-04T10:10:54Z)
Scaling Pre-trained Language Models to Deeper via Parameter-efficient Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。 MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文参考訳（メタデータ） (2023-03-27T02:34:09Z)
Proxyless Neural Architecture Adaptation for Supervised Learning and Self-Supervised Learning [3.766702945560518]
本稿では、再現性と効率のよいプロキシレスニューラルアーキテクチャ適応を提案する。本手法は,教師付き学習と自己教師型学習の両方に適用できる。
論文参考訳（メタデータ） (2022-05-15T02:49:48Z)
Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文参考訳（メタデータ） (2022-05-11T17:10:41Z)
Learning Features with Parameter-Free Layers [22.92568642331809]
本稿では、ネットワークアーキテクチャにおける効率的なトレーニング可能なレイヤの代替として、単純なパラメータフリーな操作が好ましいと論じる。 ImageNetデータセットの実験では、パラメータフリーな操作を持つネットワークアーキテクチャは、モデル速度、パラメータ数、FLOPのさらなる効率性の利点を享受できることが示されている。
論文参考訳（メタデータ） (2022-02-06T14:03:36Z)
MoEfication: Conditional Computation of Transformer Models for Efficient Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文参考訳（メタデータ） (2021-10-05T02:14:38Z)
AutoTinyBERT: Automatic Hyper-parameter Optimization for Efficient Pre-trained Language Models [46.69439585453071]
アーキテクチャのハイパーパラメータを自動的に検索するために,NAS(One-shot Neural Architecture Search)を採用している。具体的には,小型PLMの適応的かつ効率的な開発方法を提供するために,ワンショット学習の技術と検索空間を設計する。提案手法をAutoTinyBERTと命名し,GLUEおよびSQuADベンチマーク上での有効性を評価する。
論文参考訳（メタデータ） (2021-07-29T00:47:30Z)
Parameter-Efficient Transfer from Sequential Behaviors for User Modeling and Recommendation [111.44445634272235]
本稿では,PeterRecと呼ばれるパラメータ効率のよい移動学習アーキテクチャを提案する。 PeterRecは、トレーニング済みのパラメータを、一連の再学習ニューラルネットワークを注入することで、微調整中に修正されないようにする。我々は5つの下流タスクにおいて学習したユーザ表現の有効性を示すために、広範囲な実験的アブレーションを行う。
論文参考訳（メタデータ） (2020-01-13T14:09:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。