論文の概要: LayerNorm: A key component in parameter-efficient fine-tuning
- arxiv url: http://arxiv.org/abs/2403.20284v1
- Date: Fri, 29 Mar 2024 16:53:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 15:05:12.201551
- Title: LayerNorm: A key component in parameter-efficient fine-tuning
- Title(参考訳): LayerNorm: パラメータ効率の良い微調整における重要なコンポーネント
- Authors: Taha ValizadehAslani, Hualou Liang,
- Abstract要約: BERT(Bidirectional Representations from Transformers)のような事前学習モデルの微調整は、多くの自然言語処理(NLP)タスクを解決する効果的な方法であることが証明されている。
BERTを含む多くの最先端NLPモデルではパラメータが多数存在するため、微調整のプロセスは計算コストがかかる。
この問題に対する魅力的な解決策の1つはパラメータ効率の細かいチューニングであり、残余を変更せずに最小限のセグメントだけを変更することである。
- 参考スコア(独自算出の注目度): 2.7229002282002397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning a pre-trained model, such as Bidirectional Encoder Representations from Transformers (BERT), has been proven to be an effective method for solving many natural language processing (NLP) tasks. However, due to the large number of parameters in many state-of-the-art NLP models, including BERT, the process of fine-tuning is computationally expensive. One attractive solution to this issue is parameter-efficient fine-tuning, which involves modifying only a minimal segment of the model while keeping the remainder unchanged. Yet, it remains unclear which segment of the BERT model is crucial for fine-tuning. In this paper, we first analyze different components in the BERT model to pinpoint which one undergoes the most significant changes after fine-tuning. We find that output LayerNorm changes more than any other components when fine-tuned for different General Language Understanding Evaluation (GLUE) tasks. Then we show that only fine-tuning the LayerNorm can reach comparable, or in some cases better, performance to full fine-tuning and other parameter-efficient fine-tuning methods. Moreover, we use Fisher information to determine the most critical subset of LayerNorm and demonstrate that many NLP tasks in the GLUE benchmark can be solved by fine-tuning only a small portion of LayerNorm with negligible performance degradation.
- Abstract(参考訳): BERT(Bidirectional Encoder Representations from Transformers)のような事前学習モデルの微調整は、多くの自然言語処理(NLP)タスクを解決する効果的な方法であることが証明されている。
しかし、BERTを含む多くの最先端NLPモデルではパラメータが多すぎるため、微調整のプロセスは計算コストがかかる。
この問題に対する魅力的な解決策の1つはパラメータ効率の細かいチューニングであり、残余を変更せずに最小限のセグメントだけを変更することである。
しかし、BERTモデルのどの部分が微調整に欠かせないのかは不明だ。
本稿では、まずBERTモデルの異なる成分を分析し、微調整後の最も重要な変化をピンポイントで検出する。
共通言語理解評価(GLUE)タスクを微調整すると,LayerNormの出力は他のどのコンポーネントよりも大きく変化することがわかった。
次に、LayerNormの微調整だけが、完全な微調整や他のパラメータ効率の良い微調整メソッドのパフォーマンスに匹敵する、あるいは、場合によっては、より良く到達できることを示します。
さらに、Fisher情報を用いてLayerNormの最も重要なサブセットを決定し、GLUEベンチマークにおける多くのNLPタスクが、LayerNormのごく一部だけを無視可能な性能劣化で微調整することで解決できることを実証する。
関連論文リスト
- SparseGrad: A Selective Method for Efficient Fine-tuning of MLP Layers [88.68985153780514]
本稿では,パラメータブロックでよく動作する選択型PEFT法,すなわちSparseGradを提案する。
SparseGrad を NLU タスクに BERT と RoBERTa を,質問応答タスクに LLaMa-2 を適用した。
論文 参考訳(メタデータ) (2024-10-09T19:03:52Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT (Efficient Fine Tuning) 手法として人気がある。
モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。
提案手法は,大規模言語モデルの微調整に有効であり,比較性能を維持しつつ,パラメータ数の大幅な削減を実現している。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - A Semantic-based Layer Freezing Approach to Efficient Fine-Tuning of Language Models [32.178931149612644]
下流のデータやタスクにモデルを適応させるには、微調整言語モデル(LM)が不可欠である。
パラメータ効率の微調整(PEFT)のような既存の作業は、しばしば微細化のためのthithowに焦点を当てるが、微細化のためのtextitwhereの問題を無視している。
論文 参考訳(メタデータ) (2024-06-17T17:13:08Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Sensi-BERT: Towards Sensitivity Driven Fine-Tuning for
Parameter-Efficient BERT [6.029590006321152]
本稿では、下流タスクのための感度駆動効率の良いBERTモデルの微調整であるSensi-BERTを提案する。
実験の結果,MNLI,QQP,QNLI,SST-2,SQuADなどの下流タスクに対するSensi-BERTの有効性が示された。
論文 参考訳(メタデータ) (2023-07-14T17:24:15Z) - Parameter-Efficient Tuning on Layer Normalization for Pre-trained
Language Models [1.7185989606499712]
まず、0.03%のパラメータしか持たないLayer Normalizationモジュールの利得とバイアス項を調整することでLNチューニングを提案する。
本研究では,LN-tuningと従来のLN-tuningを組み合わせた統一的なフレームワークについて検討し,(1)プレフィックス-tuningとMHAを用いたアダプタベースの手法を組み合わせた統一的なフレームワークがSOTA性能を実現していることを示す。
論文 参考訳(メタデータ) (2022-11-16T05:31:49Z) - Two-stage LLM Fine-tuning with Less Specialization and More
Generalization [93.12197594813378]
本稿では,Model Tuning (ProMoT) を用いた Prompt Tuning を提案する。
ProMoTは、タスク固有のフォーマット学習を、最初はプロンプトチューニングを行い、次にこのソフトプロンプトでモデル自体を微調整することで、追加的で取り外し可能なパラメータにオフロードする。
ProMoTは、微調整タスクと意味的に関連するコンテキスト内学習タスクの一般化を強化することもできる。
論文 参考訳(メタデータ) (2022-11-01T17:56:57Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z) - Parameter-Efficient Tuning with Special Token Adaptation [25.37998979962568]
PASTAは自然言語理解タスクの微調整に匹敵するパフォーマンスを実現している。
我々の研究は、事前訓練された言語モデルにおける特別なトークンの重要な役割を実証している。
論文 参考訳(メタデータ) (2022-10-10T01:02:51Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。