論文の概要: Parameter-Efficient Tuning on Layer Normalization for Pre-trained
Language Models
- arxiv url: http://arxiv.org/abs/2211.08682v1
- Date: Wed, 16 Nov 2022 05:31:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 14:53:58.319405
- Title: Parameter-Efficient Tuning on Layer Normalization for Pre-trained
Language Models
- Title(参考訳): 事前学習言語モデルの層正規化におけるパラメータ効率の調整
- Authors: Wang Qi, Yu-Ping Ruan, Yuan Zuo, Taihao Li
- Abstract要約: まず、0.03%のパラメータしか持たないLayer Normalizationモジュールの利得とバイアス項を調整することでLNチューニングを提案する。
本研究では,LN-tuningと従来のLN-tuningを組み合わせた統一的なフレームワークについて検討し,(1)プレフィックス-tuningとMHAを用いたアダプタベースの手法を組み合わせた統一的なフレームワークがSOTA性能を実現していることを示す。
- 参考スコア(独自算出の注目度): 1.7185989606499712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional fine-tuning encounters increasing difficulties given the size of
current Pre-trained Language Models, which makes parameter-efficient tuning
become the focal point of frontier research. Previous methods in this field add
tunable adapters into MHA or/and FFN of Transformer blocks to enable PLMs
achieve transferability. However, as an important part of Transformer
architecture, the power of layer normalization for parameter-efficent tuning is
ignored. In this paper, we first propose LN-tuning, by tuning the gain and bias
term of Layer Normalization module with only 0.03\% parameters, which is of
high time-efficency and significantly superior to baselines which are less than
0.1\% tunable parameters. Further, we study the unified framework of combining
LN-tuning with previous ones and we find that: (1) the unified framework of
combining prefix-tuning, the adapter-based method working on MHA, and LN-tuning
achieves SOTA performance. (2) unified framework which tunes MHA and LayerNorm
simultaneously can get performance improvement but those which tune FFN and
LayerNorm simultaneous will cause performance decrease. Ablation study
validates LN-tuning is of no abundant parameters and gives a further
understanding of it.
- Abstract(参考訳): 従来の微調整は、パラメータ効率のチューニングをフロンティア研究の焦点とする、現在の事前訓練言語モデルのサイズを考えると、困難が増している。
このフィールドの以前の方法は、トランスフォーマーブロックのMHAまたは/およびFFNに調整可能なアダプタを追加し、PLMが転送可能性を達成する。
しかし、Transformerアーキテクチャの重要な部分として、パラメータ効率チューニングにおける層正規化のパワーは無視される。
本稿では,まず,0.03\%のパラメータしか持たない層正規化モジュールの利得とバイアス項を調整し,時間効率が高く,0.1\%未満のベースラインよりも有意に優れるln調律を提案する。
さらに,LN-tuningと従来のLN-tuningを組み合わせる統一フレームワークについて検討し,(1)プレフィックスチューニングとMHAを用いたアダプタベースの手法を組み合わせた統一フレームワークにより,SOTAの性能が向上することを確認した。
2) mha と layernorm を同時にチューニングする統一フレームワークは性能が向上するが、ffn と layernorm を同時にチューニングするフレームワークは性能が低下する。
アブレーション研究はLNチューニングが豊富なパラメータではないことを検証し、さらなる理解を与える。
関連論文リスト
- Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT (Efficient Fine Tuning) 手法として人気がある。
モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。
提案手法は,大規模言語モデルの微調整に有効であり,比較性能を維持しつつ,パラメータ数の大幅な削減を実現している。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - Parameter-Efficient Orthogonal Finetuning via Butterfly Factorization [102.92240148504774]
下流タスク適応のための原則的微調整パラダイムである直交微調整(Orthogonal Finetuning, OFT)について検討する。
優れた一般化性を示しているにもかかわらず、OFTはまだかなり多くのトレーニング可能なパラメータを使っている。
我々はこのパラメータ化をOFTに適用し、ORFT(Orthogonal Butterfly)と呼ばれる新しいパラメータ効率の微調整法を開発した。
論文 参考訳(メタデータ) (2023-11-10T18:59:54Z) - Universality and Limitations of Prompt Tuning [65.8354898840308]
トランスフォーマーアーキテクチャにおけるソフトプロンプトチューニングの役割を理解するための最初のステップの1つを取り上げる。
連続値関数に対する有限深度事前学習型変圧器を用いて、普遍性と制限のレンズからの即時チューニングを解析する。
この結果は、リプシッツ関数の集合における任意の列列列関数を近似するプロンプトを持つ強変換器の存在を保証する。
論文 参考訳(メタデータ) (2023-05-30T06:47:07Z) - AdapterEM: Pre-trained Language Model Adaptation for Generalized Entity
Matching using Adapter-tuning [3.4754314910585626]
本稿では,アダプタをベースとした微調整PrLMのためのパラメータ効率のパラダイムを提案する。
提案手法は,フルスケールのPrLMファインチューニングとプロンプトチューニングのベースラインに匹敵する,あるいは優れた性能を実現する。
論文 参考訳(メタデータ) (2023-05-30T04:03:23Z) - Towards Adaptive Prefix Tuning for Parameter-Efficient Language Model
Fine-tuning [32.84435258519842]
ゲート機構により,粒度の細かいトークンレベルと粗い層レベルの両方でプレフィックスを調整できる適応型プリフィックスチューニング(APT)を提案する。
SuperGLUEとNERデータセットの実験は、APTの有効性を示している。
論文 参考訳(メタデータ) (2023-05-24T14:51:01Z) - Rethinking Efficient Tuning Methods from a Unified Perspective [34.67645496324432]
我々はPETLの設計パラダイムを再検討し、パラメータ効率の伝達学習のための統一的なフレームワークU-Tuningを導出する。
U-Tuningフレームワークは、既存の手法を同時に包含し、パラメータ効率の移行学習のための新しいアプローチを導出することができる。
論文 参考訳(メタデータ) (2023-03-01T17:38:03Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z) - On the Effectiveness of Adapter-based Tuning for Pretrained Language
Model Adaptation [36.37565646597464]
プリトレーニング言語モデル(PrLM)に軽量アダプタモジュールを追加することで、アダプタベースのチューニングが機能する
新しいタスクごとにいくつかのトレーニング可能なパラメータを追加するだけで、高いパラメータ共有が可能になる。
アダプタベースのチューニングは,低リソースタスクと多言語タスクの微調整に優れることを示す。
論文 参考訳(メタデータ) (2021-06-06T16:10:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。