論文の概要: PATS: Sensitivity-aware Noisy Learning for Pretrained Language Models
- arxiv url: http://arxiv.org/abs/2210.12403v1
- Date: Sat, 22 Oct 2022 10:05:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 16:09:53.370437
- Title: PATS: Sensitivity-aware Noisy Learning for Pretrained Language Models
- Title(参考訳): PATS:事前学習言語モデルのための感性を考慮した雑音学習
- Authors: Yupeng Zhang, Hongzhi Zhang, Sirui Wang, Wei Wu and Zhoujun Li
- Abstract要約: 本稿では、下流タスクにおける各パラメータの重要性を考慮に入れたノイズの多いトレーニングメカニズムであるPATS(Perturbation Based To Sensitivity)を提案する。
GLUEベンチマークの異なるタスクで実施された実験は、PATSがPLMの異なるサイズの微調整を一貫して強化できることを示している。
- 参考スコア(独自算出の注目度): 29.140036130469042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A wide range of NLP tasks benefit from the fine-tuning of pretrained language
models (PLMs). However, a number of redundant parameters which contribute less
to the downstream task are observed in a directly fine-tuned model. We consider
the gap between pretraining and downstream tasks hinders the training of these
redundant parameters, and results in a suboptimal performance of the overall
model. In this paper, we present PATS (Perturbation According To Sensitivity),
a noisy training mechanism which considers each parameter's importance in the
downstream task to help fine-tune PLMs. The main idea of PATS is to add bigger
noise to parameters with lower sensitivity and vice versa, in order to activate
more parameters' contributions to downstream tasks without affecting the
sensitive ones much. Extensive experiments conducted on different tasks of the
GLUE benchmark show PATS can consistently empower the fine-tuning of different
sizes of PLMs, and the parameters in the well-performing models always have
more concentrated distributions of sensitivities, which experimentally proves
the effectiveness of our method.
- Abstract(参考訳): 幅広いNLPタスクは、事前訓練された言語モデル(PLM)の微調整の恩恵を受ける。
しかし、下流タスクにあまり寄与しない冗長なパラメータが、直接微調整されたモデルで観察される。
プリトレーニングとダウンストリームタスクのギャップは,これらの冗長パラメータのトレーニングを阻害し,結果としてモデル全体の最適性能を低下させる。
本稿では、下流タスクにおける各パラメータの重要性を考慮し、微調整 PLM を支援するノイズ学習機構であるPATS(Perturbation Based To Sensitivity)を提案する。
patsの主な考え方は、感度の低いパラメータにより大きなノイズを加えることであり、その逆もまた、感度の高いタスクに影響を与えずに下流タスクにより多くのパラメータの寄与を活性化することである。
GLUEベンチマークの結果,PATSはPLMの細粒度調整を一貫して行うことができ,良好な性能を持つモデルでは,常に感度分布の集中化が図られ,本手法の有効性が実験的に証明されている。
関連論文リスト
- SAFE: Slow and Fast Parameter-Efficient Tuning for Continual Learning with Pre-Trained Models [26.484208658326857]
継続的な学習は、過去の知識を忘れることに抵抗しながら、データストリームにおける新しい概念を漸進的に獲得することを目的としている。
強力な事前学習モデル(PTM)の台頭に伴い、インクリメンタル学習システムのトレーニングへの関心が高まっている。
論文 参考訳(メタデータ) (2024-11-04T15:34:30Z) - SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation [52.6922833948127]
本研究では,事前学習した拡散モデルにおけるパラメータの重要性について検討する。
本稿では,これらの非効率パラメータをフル活用するための新しいモデル微調整法を提案する。
本手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上する。
論文 参考訳(メタデータ) (2024-09-10T16:44:47Z) - MELoRA: Mini-Ensemble Low-Rank Adapters for Parameter-Efficient Fine-Tuning [71.50432879573614]
低ランク適応 (LoRA) は、適応過程が本質的に低次元であるという考えに基づいている。
我々は、より高階を維持しながらトレーニング可能なパラメータを少なくするミニアンサンブルな低ランクアダプタMELoRAを提案する。
実験結果から, 自然言語理解タスクの8倍のトレーニングパラメータ, 続くタスクの36倍のトレーニングパラメータが得られた。
論文 参考訳(メタデータ) (2024-02-27T07:14:12Z) - Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised
Language Understanding [38.11411155621616]
我々は,主に半教師あり学習の手法として,自己学習について研究している。
我々は,新しい不確かさを意識した自己学習フレームワークであるUPETを紹介する。
UPETは性能と効率の面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-10-19T02:18:29Z) - PETA: Parameter-Efficient Trojan Attacks [10.327226660571121]
PETAはPLMの重みを損なう新しいトロイの木馬攻撃である。
攻撃者が被害者のトレーニングプロセスについて十分な知識を持っていない場合でも,攻撃成功率とクリーン精度の両方の観点からPETAの有効性を実証する。
論文 参考訳(メタデータ) (2023-10-01T12:07:44Z) - Sensi-BERT: Towards Sensitivity Driven Fine-Tuning for
Parameter-Efficient BERT [6.029590006321152]
本稿では、下流タスクのための感度駆動効率の良いBERTモデルの微調整であるSensi-BERTを提案する。
実験の結果,MNLI,QQP,QNLI,SST-2,SQuADなどの下流タスクに対するSensi-BERTの有効性が示された。
論文 参考訳(メタデータ) (2023-07-14T17:24:15Z) - Exploring the Impact of Model Scaling on Parameter-Efficient Tuning [100.61202305296275]
大規模事前学習言語モデル(PLM)を効果的に駆動できるスケーリング効率チューニング(PET)法
小型PLMでは、PET法には通常顕著な性能差がある。
本稿では,Arbitrary PET (APET) 法という,より柔軟なPET法を提案する。
論文 参考訳(メタデータ) (2023-06-04T10:10:54Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - NoisyTune: A Little Noise Can Help You Finetune Pretrained Language
Models Better [98.5705258907774]
訓練済み言語モデル(PLM)の微調整は、下流タスクの成功に不可欠である。
PLMは、事前訓練の信号に過度に適合する危険性があり、下流のタスクと事前訓練のタスクの間にはギャップがある。
NoisyTuneは、微調整前にPLMのパラメータにいくつかのノイズを加えることで、下流タスクにおけるPLMの微調整を支援する。
論文 参考訳(メタデータ) (2022-02-24T11:08:02Z) - No Parameters Left Behind: Sensitivity Guided Adaptive Learning Rate for
Training Large Transformer Models [132.90062129639705]
本稿では,全てのパラメータを十分に訓練するための新しいトレーニング戦略を提案する。
感度の低いパラメータは冗長であり、学習率を高めて適合性を改善する。
対照的に、高い感度を持つパラメータを十分に訓練し、学習率を下げて正規化することで、さらなる過度なオーバーフィッティングを防止する。
論文 参考訳(メタデータ) (2022-02-06T00:22:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。