論文の概要: Healing Powers of BERT: How Task-Specific Fine-Tuning Recovers Corrupted Language Models
- arxiv url: http://arxiv.org/abs/2406.14459v1
- Date: Thu, 20 Jun 2024 16:18:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 12:52:55.888347
- Title: Healing Powers of BERT: How Task-Specific Fine-Tuning Recovers Corrupted Language Models
- Title(参考訳): BERTのヒーリングパワー:タスク特有なファインチューニングが故障した言語モデルをいかに再現するか
- Authors: Shijie Han, Zhenyu Zhang, Andrei Arsene Simion,
- Abstract要約: 言語モデルが"壊れた"場合、パラメータのいくつかが破損し、微調整によって復元されるという意味で何が起こるかを見る。
破損したモデルは、元のパフォーマンスを完全に回復するのに苦労し、高い劣化がより深刻な劣化を引き起こします。
本研究は, 言語モデルの堅牢性, 悪条件下での適応性の理解に寄与し, 弾力性NLPシステムの開発戦略の策定に寄与する。
- 参考スコア(独自算出の注目度): 4.793753685154721
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models like BERT excel at sentence classification tasks due to extensive pre-training on general data, but their robustness to parameter corruption is unexplored. To understand this better, we look at what happens if a language model is "broken", in the sense that some of its parameters are corrupted and then recovered by fine-tuning. Strategically corrupting BERT variants at different levels, we find corrupted models struggle to fully recover their original performance, with higher corruption causing more severe degradation. Notably, bottom-layer corruption affecting fundamental linguistic features is more detrimental than top-layer corruption. Our insights contribute to understanding language model robustness and adaptability under adverse conditions, informing strategies for developing resilient NLP systems against parameter perturbations.
- Abstract(参考訳): BERTのような言語モデルは、一般的なデータに基づく広範な事前学習のために、文分類タスクにおいて優れているが、パラメータの破損に対する頑健さは探索されていない。
これをよりよく理解するために、パラメータのいくつかが破損し、微調整によって復元されるという意味で、言語モデルが"壊れた"場合に何が起こるかを検討する。
BERTの変種を異なるレベルで戦略的に劣化させると、破損したモデルは元の性能を回復するのに苦労し、高い劣化はより深刻な劣化を引き起こします。
特に、基本的な言語的特徴に影響を及ぼす下層破壊は、上位層破壊よりも有害である。
本研究は, 言語モデルの堅牢性と悪条件下での適応性の理解に寄与し, パラメータ摂動に対する弾力性NLPシステムの開発戦略を提示する。
関連論文リスト
- Towards Robust Pruning: An Adaptive Knowledge-Retention Pruning Strategy
for Language Models [35.58379464827462]
本稿では,高密度言語モデルの埋め込み空間と特徴空間を忠実に再現する訓練後プルーニング戦略を提案する。
他の最先端のベースラインと比較して、我々の手法は、SST2、IMDB、AGNewsのデータセット上でBERTによる精度、スパーシリティ、ロバスト性、およびプルーニングコストのバランスが優れていることを示す。
論文 参考訳(メタデータ) (2023-10-19T23:02:29Z) - Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。
我々は,単語順序の重要性を維持するために強制的無効化を提案する。
実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-04-11T13:42:10Z) - How Does Data Corruption Affect Natural Language Understanding Models? A
Study on GLUE datasets [4.645287693363387]
モデルが微調整されたり、破損したデータでテストされた場合、ほとんどのGLUEタスクのパフォーマンスは高いままである。
提案したデータ変換は,特定のデータセットがモデルの言語理解能力を評価するための適切なテストベッドを構成する範囲を評価するための診断ツールとして利用することができる。
論文 参考訳(メタデータ) (2022-01-12T13:35:53Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task
Models [54.184609286094044]
補助モデルと付加データなしで問題を解くための学習パラダイムとして,ノイズエントロピー正規化(NoiER)を提案する。
提案手法は,従来の微調整モデルと比較して平均55%改善した。
論文 参考訳(メタデータ) (2021-08-29T06:58:28Z) - NLI Data Sanity Check: Assessing the Effect of Data Corruption on Model
Performance [3.7024660695776066]
データセットがモデルの意味理解能力を評価するための良いテストベッドを構成するかどうかを評価することができる新しい診断テストスイートを提案します。
特に,広く使用されているベンチマーク(mnliおよびanli)に制御された腐敗変換を適用する。
モデル精度の大幅な低下は、元のデータセットがモデルの推論能力に適切な挑戦を提供することを示している。
論文 参考訳(メタデータ) (2021-04-10T12:28:07Z) - Improving Translation Robustness with Visual Cues and Error Correction [58.97421756225425]
ノイズの多いテキストに対する翻訳の堅牢性を改善するビジュアルコンテキストのアイデアを紹介します。
また,誤り訂正を補助タスクとして扱うことで,新しい誤り訂正訓練手法を提案する。
論文 参考訳(メタデータ) (2021-03-12T15:31:34Z) - Sentence Boundary Augmentation For Neural Machine Translation Robustness [11.290581889247983]
文境界セグメンテーションが品質に最も大きな影響を与えることを示し、セグメンテーションの堅牢性を改善するための単純なデータ拡張戦略を開発する。
文境界セグメンテーションが品質に最も大きな影響を与えることを示し、セグメンテーションの堅牢性を改善するための単純なデータ拡張戦略を開発する。
論文 参考訳(メタデータ) (2020-10-21T16:44:48Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z) - Adv-BERT: BERT is not robust on misspellings! Generating nature
adversarial samples on BERT [95.88293021131035]
しかし、悪意のある敵のインスタンスがしばしば存在するのではなく、テクトナチュラルなシナリオでモデルがどのように機能するかは定かではない。
この研究は、NLPにおける最先端のTransformerスタイルモデルであるBERTの、ノイズの多いデータを扱うための頑健さを体系的に探求する。
論文 参考訳(メタデータ) (2020-02-27T22:07:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。