Fugu-MT 論文翻訳(概要): Parameter-Efficient Tuning on Layer Normalization for Pre-trained Language Models

論文の概要: Parameter-Efficient Tuning on Layer Normalization for Pre-trained Language Models

arxiv url: http://arxiv.org/abs/2211.08682v1
Date: Wed, 16 Nov 2022 05:31:49 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-17 14:53:58.319405
Title: Parameter-Efficient Tuning on Layer Normalization for Pre-trained Language Models
Title（参考訳）: 事前学習言語モデルの層正規化におけるパラメータ効率の調整
Authors: Wang Qi, Yu-Ping Ruan, Yuan Zuo, Taihao Li
Abstract要約: まず、0.03%のパラメータしか持たないLayer Normalizationモジュールの利得とバイアス項を調整することでLNチューニングを提案する。本研究では,LN-tuningと従来のLN-tuningを組み合わせた統一的なフレームワークについて検討し,(1)プレフィックス-tuningとMHAを用いたアダプタベースの手法を組み合わせた統一的なフレームワークがSOTA性能を実現していることを示す。
参考スコア（独自算出の注目度）: 1.7185989606499712
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Conventional fine-tuning encounters increasing difficulties given the size of current Pre-trained Language Models, which makes parameter-efficient tuning become the focal point of frontier research. Previous methods in this field add tunable adapters into MHA or/and FFN of Transformer blocks to enable PLMs achieve transferability. However, as an important part of Transformer architecture, the power of layer normalization for parameter-efficent tuning is ignored. In this paper, we first propose LN-tuning, by tuning the gain and bias term of Layer Normalization module with only 0.03\% parameters, which is of high time-efficency and significantly superior to baselines which are less than 0.1\% tunable parameters. Further, we study the unified framework of combining LN-tuning with previous ones and we find that: (1) the unified framework of combining prefix-tuning, the adapter-based method working on MHA, and LN-tuning achieves SOTA performance. (2) unified framework which tunes MHA and LayerNorm simultaneously can get performance improvement but those which tune FFN and LayerNorm simultaneous will cause performance decrease. Ablation study validates LN-tuning is of no abundant parameters and gives a further understanding of it.
Abstract（参考訳）: 従来の微調整は、パラメータ効率のチューニングをフロンティア研究の焦点とする、現在の事前訓練言語モデルのサイズを考えると、困難が増している。このフィールドの以前の方法は、トランスフォーマーブロックのMHAまたは/およびFFNに調整可能なアダプタを追加し、PLMが転送可能性を達成する。しかし、Transformerアーキテクチャの重要な部分として、パラメータ効率チューニングにおける層正規化のパワーは無視される。本稿では,まず,0.03\%のパラメータしか持たない層正規化モジュールの利得とバイアス項を調整し,時間効率が高く,0.1\%未満のベースラインよりも有意に優れるln調律を提案する。さらに,LN-tuningと従来のLN-tuningを組み合わせる統一フレームワークについて検討し,(1)プレフィックスチューニングとMHAを用いたアダプタベースの手法を組み合わせた統一フレームワークにより,SOTAの性能が向上することを確認した。 2) mha と layernorm を同時にチューニングする統一フレームワークは性能が向上するが、ffn と layernorm を同時にチューニングするフレームワークは性能が低下する。アブレーション研究はLNチューニングが豊富なパラメータではないことを検証し、さらなる理解を与える。

関連論文リスト

Skip Tuning: Pre-trained Vision-Language Models are Effective and Efficient Adapters Themselves [123.07450481623124]
下流タスクに視覚言語モデルを適用するための新しいパラダイムとして,Skip Tuningを提案する。既存のPTやアダプタベースの方法とは異なり、Skip Tuningは追加のコンテキストベクトルやアダプタモジュールを導入することなく、FTベースラインにLayer-wise Skipping(LSkip)とClass-wise Skipping(CSkip)を適用する。
論文参考訳（メタデータ） (2024-12-16T07:33:23Z)
ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文参考訳（メタデータ） (2024-12-11T12:31:30Z)
Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。 Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文参考訳（メタデータ） (2024-10-11T17:01:43Z)
LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT (Efficient Fine Tuning) 手法として人気がある。モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。提案手法は,大規模言語モデルの微調整に有効であり,比較性能を維持しつつ,パラメータ数の大幅な削減を実現している。
論文参考訳（メタデータ） (2024-10-05T06:59:50Z)
LayerNorm: A key component in parameter-efficient fine-tuning [2.7229002282002397]
BERT(Bidirectional Representations from Transformers)のような事前学習モデルの微調整は、多くの自然言語処理(NLP)タスクを解決する効果的な方法であることが証明されている。 BERTを含む多くの最先端NLPモデルではパラメータが多数存在するため、微調整のプロセスは計算コストがかかる。この問題に対する魅力的な解決策の1つはパラメータ効率の細かいチューニングであり、残余を変更せずに最小限のセグメントだけを変更することである。
論文参考訳（メタデータ） (2024-03-29T16:53:11Z)
Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。 DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文参考訳（メタデータ） (2024-03-18T14:05:52Z)
Parameter-Efficient Orthogonal Finetuning via Butterfly Factorization [102.92240148504774]
下流タスク適応のための原則的微調整パラダイムである直交微調整(Orthogonal Finetuning, OFT)について検討する。優れた一般化性を示しているにもかかわらず、OFTはまだかなり多くのトレーニング可能なパラメータを使っている。我々はこのパラメータ化をOFTに適用し、ORFT(Orthogonal Butterfly)と呼ばれる新しいパラメータ効率の微調整法を開発した。
論文参考訳（メタデータ） (2023-11-10T18:59:54Z)
Universality and Limitations of Prompt Tuning [65.8354898840308]
トランスフォーマーアーキテクチャにおけるソフトプロンプトチューニングの役割を理解するための最初のステップの1つを取り上げる。連続値関数に対する有限深度事前学習型変圧器を用いて、普遍性と制限のレンズからの即時チューニングを解析する。この結果は、リプシッツ関数の集合における任意の列列列関数を近似するプロンプトを持つ強変換器の存在を保証する。
論文参考訳（メタデータ） (2023-05-30T06:47:07Z)
AdapterEM: Pre-trained Language Model Adaptation for Generalized Entity Matching using Adapter-tuning [3.4754314910585626]
本稿では,アダプタをベースとした微調整PrLMのためのパラメータ効率のパラダイムを提案する。提案手法は,フルスケールのPrLMファインチューニングとプロンプトチューニングのベースラインに匹敵する,あるいは優れた性能を実現する。
論文参考訳（メタデータ） (2023-05-30T04:03:23Z)
Towards Adaptive Prefix Tuning for Parameter-Efficient Language Model Fine-tuning [32.84435258519842]
ゲート機構により,粒度の細かいトークンレベルと粗い層レベルの両方でプレフィックスを調整できる適応型プリフィックスチューニング(APT)を提案する。 SuperGLUEとNERデータセットの実験は、APTの有効性を示している。
論文参考訳（メタデータ） (2023-05-24T14:51:01Z)
Rethinking Efficient Tuning Methods from a Unified Perspective [34.67645496324432]
我々はPETLの設計パラダイムを再検討し、パラメータ効率の伝達学習のための統一的なフレームワークU-Tuningを導出する。 U-Tuningフレームワークは、既存の手法を同時に包含し、パラメータ効率の移行学習のための新しいアプローチを導出することができる。
論文参考訳（メタデータ） (2023-03-01T17:38:03Z)
Scaling & Shifting Your Features: A New Baseline for Efficient Model Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文参考訳（メタデータ） (2022-10-17T08:14:49Z)
On the Effectiveness of Adapter-based Tuning for Pretrained Language Model Adaptation [36.37565646597464]
プリトレーニング言語モデル(PrLM)に軽量アダプタモジュールを追加することで、アダプタベースのチューニングが機能する新しいタスクごとにいくつかのトレーニング可能なパラメータを追加するだけで、高いパラメータ共有が可能になる。アダプタベースのチューニングは,低リソースタスクと多言語タスクの微調整に優れることを示す。
論文参考訳（メタデータ） (2021-06-06T16:10:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。