論文の概要: Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization
- arxiv url: http://arxiv.org/abs/2206.05658v2
- Date: Thu, 9 Nov 2023 01:19:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 18:55:25.415217
- Title: Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization
- Title(参考訳): 雑音安定規則化による事前学習言語モデルの微調整の改善
- Authors: Hang Hua, Xingjian Li, Dejing Dou, Cheng-Zhong Xu, Jiebo Luo
- Abstract要約: 本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 94.4409074435894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advent of large-scale pre-trained language models has contributed greatly
to the recent progress in natural language processing. Many state-of-the-art
language models are first trained on a large text corpus and then fine-tuned on
downstream tasks. Despite its recent success and wide adoption, fine-tuning a
pre-trained language model often suffers from overfitting, which leads to poor
generalizability due to the extremely high complexity of the model and the
limited training samples from downstream tasks. To address this problem, we
propose a novel and effective fine-tuning framework, named Layerwise Noise
Stability Regularization (LNSR). Specifically, we propose to inject the
standard Gaussian noise or In-manifold noise and regularize hidden
representations of the fine-tuned model. We first provide theoretical analyses
to support the efficacy of our method. We then demonstrate the advantages of
the proposed method over other state-of-the-art algorithms including L2-SP,
Mixout and SMART. While these previous works only verify the effectiveness of
their methods on relatively simple text classification tasks, we also verify
the effectiveness of our method on question answering tasks, where the target
problem is much more difficult and more training examples are available.
Furthermore, extensive experimental results indicate that the proposed
algorithm can not only enhance the in-domain performance of the language models
but also improve the domain generalization performance on out-of-domain data.
- Abstract(参考訳): 大規模事前学習型言語モデルの出現は、近年の自然言語処理の進歩に大きく貢献している。
多くの最先端言語モデルは、まず大きなテキストコーパスでトレーニングされ、その後下流タスクで微調整される。
近年の成功と広く採用されているにもかかわらず、事前学習された言語モデルの微調整は、しばしば過剰な適合に苦しめられ、モデルの非常に高い複雑さと下流タスクからの限られたトレーニングサンプルのため、一般化しづらい。
この問題に対処するため、我々はLayerwise Noise Stability Regularization (LNSR) という新しい効果的な微調整フレームワークを提案する。
具体的には,標準ガウス雑音やマニフォールド雑音を注入し,微調整モデルの隠れ表現を正則化する。
まず,本手法の有効性を裏付ける理論的解析を行う。
次に,L2-SP,Mixout,SMARTなどの最先端アルゴリズムに対して提案手法の利点を示す。
これらの先行研究は,比較的単純なテキスト分類タスクにおいて,その手法の有効性を検証するだけでなく,質問応答タスクにおける提案手法の有効性を検証した。
さらに,提案アルゴリズムは,言語モデルのドメイン内性能を向上するだけでなく,ドメイン外データに対するドメイン一般化性能を向上させることができることを示す。
関連論文リスト
- Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T15:47:00Z) - Language Rectified Flow: Advancing Diffusion Language Generation with Probabilistic Flows [53.31856123113228]
本稿では,言語認識フロー (ours) を提案する。
本手法は, 標準確率流モデルの再構成に基づく。
実験およびアブレーション実験により,本手法は多くのNLPタスクに対して汎用的,効果的,有益であることが示されている。
論文 参考訳(メタデータ) (2024-03-25T17:58:22Z) - Improving Temporal Generalization of Pre-trained Language Models with
Lexical Semantic Change [28.106524698188675]
近年の研究では、大規模なニューラルネットワークモデルが時間的一般化能力の低下に悩まされていることが明らかになっている。
本稿では,収束した言語モデルを学習後処理するための,単純かつ効果的な語彙レベルのマスキング手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T08:12:41Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - Differentiable Prompt Makes Pre-trained Language Models Better Few-shot
Learners [23.150999852147283]
本研究は,differiAble pRompT (DART) という新規で効率的なアプローチを提案する。
小さな言語モデルを、素早いエンジニアリングなしで、より優れた数ショットの学習者に変換することができる。
標準NLPタスクの包括的な評価は、提案手法がより優れた数ショット性能を実現することを示す。
論文 参考訳(メタデータ) (2021-08-30T12:29:25Z) - NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task
Models [54.184609286094044]
補助モデルと付加データなしで問題を解くための学習パラダイムとして,ノイズエントロピー正規化(NoiER)を提案する。
提案手法は,従来の微調整モデルと比較して平均55%改善した。
論文 参考訳(メタデータ) (2021-08-29T06:58:28Z) - Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。