Fugu-MT 論文翻訳(概要): LayerNorm: A key component in parameter-efficient fine-tuning

論文の概要: LayerNorm: A key component in parameter-efficient fine-tuning

arxiv url: http://arxiv.org/abs/2403.20284v1
Date: Fri, 29 Mar 2024 16:53:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-01 15:05:12.201551
Title: LayerNorm: A key component in parameter-efficient fine-tuning
Title（参考訳）: LayerNorm: パラメータ効率の良い微調整における重要なコンポーネント
Authors: Taha ValizadehAslani, Hualou Liang,
Abstract要約: BERT(Bidirectional Representations from Transformers)のような事前学習モデルの微調整は、多くの自然言語処理(NLP)タスクを解決する効果的な方法であることが証明されている。 BERTを含む多くの最先端NLPモデルではパラメータが多数存在するため、微調整のプロセスは計算コストがかかる。この問題に対する魅力的な解決策の1つはパラメータ効率の細かいチューニングであり、残余を変更せずに最小限のセグメントだけを変更することである。
参考スコア（独自算出の注目度）: 2.7229002282002397
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Fine-tuning a pre-trained model, such as Bidirectional Encoder Representations from Transformers (BERT), has been proven to be an effective method for solving many natural language processing (NLP) tasks. However, due to the large number of parameters in many state-of-the-art NLP models, including BERT, the process of fine-tuning is computationally expensive. One attractive solution to this issue is parameter-efficient fine-tuning, which involves modifying only a minimal segment of the model while keeping the remainder unchanged. Yet, it remains unclear which segment of the BERT model is crucial for fine-tuning. In this paper, we first analyze different components in the BERT model to pinpoint which one undergoes the most significant changes after fine-tuning. We find that output LayerNorm changes more than any other components when fine-tuned for different General Language Understanding Evaluation (GLUE) tasks. Then we show that only fine-tuning the LayerNorm can reach comparable, or in some cases better, performance to full fine-tuning and other parameter-efficient fine-tuning methods. Moreover, we use Fisher information to determine the most critical subset of LayerNorm and demonstrate that many NLP tasks in the GLUE benchmark can be solved by fine-tuning only a small portion of LayerNorm with negligible performance degradation.
Abstract（参考訳）: BERT(Bidirectional Encoder Representations from Transformers)のような事前学習モデルの微調整は、多くの自然言語処理(NLP)タスクを解決する効果的な方法であることが証明されている。しかし、BERTを含む多くの最先端NLPモデルではパラメータが多すぎるため、微調整のプロセスは計算コストがかかる。この問題に対する魅力的な解決策の1つはパラメータ効率の細かいチューニングであり、残余を変更せずに最小限のセグメントだけを変更することである。しかし、BERTモデルのどの部分が微調整に欠かせないのかは不明だ。本稿では、まずBERTモデルの異なる成分を分析し、微調整後の最も重要な変化をピンポイントで検出する。共通言語理解評価(GLUE)タスクを微調整すると,LayerNormの出力は他のどのコンポーネントよりも大きく変化することがわかった。次に、LayerNormの微調整だけが、完全な微調整や他のパラメータ効率の良い微調整メソッドのパフォーマンスに匹敵する、あるいは、場合によっては、より良く到達できることを示します。さらに、Fisher情報を用いてLayerNormの最も重要なサブセットを決定し、GLUEベンチマークにおける多くのNLPタスクが、LayerNormのごく一部だけを無視可能な性能劣化で微調整することで解決できることを実証する。

関連論文リスト

DiaBlo: Diagonal Blocks Are Sufficient For Finetuning [5.615105036691153]
選択したモデル重み行列の対角ブロックのみを更新するPEFTアプローチであるDiaBloを提案する。ローランク適応(LoRA)とその変種とは異なり、ダイアブロはローランク行列生成物の必要性を排除している。この設計は、LoRAに匹敵するメモリ効率とトレーニング速度を維持しながら、安定かつ堅牢な収束をもたらす。
論文参考訳（メタデータ） (2025-06-03T13:47:59Z)
Zero Token-Driven Deep Thinking in LLMs: Unlocking the Full Potential of Existing Parameters via Cyclic Refinement [43.548042892597536]
本稿では,ヘッドテールデカップリングパラメータサイクリング方式を特徴とするZero Token Transformer (ZTT)を提案する。最初の(頭)層と最後の(尾)層をパラメータサイクリングから切り離し、中間層のみを反復的に洗練します。提案手法は, 厳密なパラメータ予算下での優れた性能を実現し, 早期出口による計算オーバーヘッドを効果的に低減し, 既存の訓練済みモデルに容易に適用することができる。
論文参考訳（メタデータ） (2025-02-17T04:37:22Z)
ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文参考訳（メタデータ） (2024-12-11T12:31:30Z)
SparseGrad: A Selective Method for Efficient Fine-tuning of MLP Layers [88.68985153780514]
本稿では,パラメータブロックでよく動作する選択型PEFT法,すなわちSparseGradを提案する。 SparseGrad を NLU タスクに BERT と RoBERTa を,質問応答タスクに LLaMa-2 を適用した。
論文参考訳（メタデータ） (2024-10-09T19:03:52Z)
LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT (Efficient Fine Tuning) 手法として人気がある。モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。提案手法は,大規模言語モデルの微調整に有効であり,比較性能を維持しつつ,パラメータ数の大幅な削減を実現している。
論文参考訳（メタデータ） (2024-10-05T06:59:50Z)
A Semantic-based Layer Freezing Approach to Efficient Fine-Tuning of Language Models [32.178931149612644]
下流のデータやタスクにモデルを適応させるには、微調整言語モデル(LM)が不可欠である。パラメータ効率の微調整(PEFT)のような既存の作業は、しばしば微細化のためのthithowに焦点を当てるが、微細化のためのtextitwhereの問題を無視している。
論文参考訳（メタデータ） (2024-06-17T17:13:08Z)
E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文参考訳（メタデータ） (2023-07-25T19:03:21Z)
Sensi-BERT: Towards Sensitivity Driven Fine-Tuning for Parameter-Efficient BERT [6.029590006321152]
本稿では、下流タスクのための感度駆動効率の良いBERTモデルの微調整であるSensi-BERTを提案する。実験の結果,MNLI,QQP,QNLI,SST-2,SQuADなどの下流タスクに対するSensi-BERTの有効性が示された。
論文参考訳（メタデータ） (2023-07-14T17:24:15Z)
Parameter-Efficient Tuning on Layer Normalization for Pre-trained Language Models [1.7185989606499712]
まず、0.03%のパラメータしか持たないLayer Normalizationモジュールの利得とバイアス項を調整することでLNチューニングを提案する。本研究では,LN-tuningと従来のLN-tuningを組み合わせた統一的なフレームワークについて検討し,(1)プレフィックス-tuningとMHAを用いたアダプタベースの手法を組み合わせた統一的なフレームワークがSOTA性能を実現していることを示す。
論文参考訳（メタデータ） (2022-11-16T05:31:49Z)
Two-stage LLM Fine-tuning with Less Specialization and More Generalization [93.12197594813378]
本稿では,Model Tuning (ProMoT) を用いた Prompt Tuning を提案する。 ProMoTは、タスク固有のフォーマット学習を、最初はプロンプトチューニングを行い、次にこのソフトプロンプトでモデル自体を微調整することで、追加的で取り外し可能なパラメータにオフロードする。 ProMoTは、微調整タスクと意味的に関連するコンテキスト内学習タスクの一般化を強化することもできる。
論文参考訳（メタデータ） (2022-11-01T17:56:57Z)
Scaling & Shifting Your Features: A New Baseline for Efficient Model Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文参考訳（メタデータ） (2022-10-17T08:14:49Z)
Parameter-Efficient Tuning with Special Token Adaptation [25.37998979962568]
PASTAは自然言語理解タスクの微調整に匹敵するパフォーマンスを実現している。我々の研究は、事前訓練された言語モデルにおける特別なトークンの重要な役割を実証している。
論文参考訳（メタデータ） (2022-10-10T01:02:51Z)
Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文参考訳（メタデータ） (2022-05-11T17:10:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。