論文の概要: Evaluating the Robustness of Neural Language Models to Input
Perturbations
- arxiv url: http://arxiv.org/abs/2108.12237v1
- Date: Fri, 27 Aug 2021 12:31:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-30 14:24:56.183550
- Title: Evaluating the Robustness of Neural Language Models to Input
Perturbations
- Title(参考訳): 入力摂動に対するニューラルネットワークモデルのロバスト性の評価
- Authors: Milad Moradi, Matthias Samwald
- Abstract要約: 本研究では,雑音の多い入力テキストをシミュレートするために,文字レベルおよび単語レベルの摂動法を設計し,実装する。
本稿では,BERT,XLNet,RoBERTa,ELMoなどの高性能言語モデルを用いて,入力摂動の異なるタイプの処理能力について検討する。
その結果, 言語モデルは入力摂動に敏感であり, 小さな変化が生じても性能が低下することが示唆された。
- 参考スコア(独自算出の注目度): 7.064032374579076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-performance neural language models have obtained state-of-the-art
results on a wide range of Natural Language Processing (NLP) tasks. However,
results for common benchmark datasets often do not reflect model reliability
and robustness when applied to noisy, real-world data. In this study, we design
and implement various types of character-level and word-level perturbation
methods to simulate realistic scenarios in which input texts may be slightly
noisy or different from the data distribution on which NLP systems were
trained. Conducting comprehensive experiments on different NLP tasks, we
investigate the ability of high-performance language models such as BERT,
XLNet, RoBERTa, and ELMo in handling different types of input perturbations.
The results suggest that language models are sensitive to input perturbations
and their performance can decrease even when small changes are introduced. We
highlight that models need to be further improved and that current benchmarks
are not reflecting model robustness well. We argue that evaluations on
perturbed inputs should routinely complement widely-used benchmarks in order to
yield a more realistic understanding of NLP systems robustness.
- Abstract(参考訳): 高性能ニューラルネットワークモデルは、幅広い自然言語処理(NLP)タスクについて最先端の結果を得た。
しかし、一般的なベンチマークデータセットの結果は、ノイズの多い現実世界のデータに適用した場合、モデルの信頼性と堅牢性を反映しないことが多い。
本研究では,入力テキストがNLPシステムで訓練されたデータ配信とわずかにノイズがあるような現実的なシナリオをシミュレートするために,文字レベルおよび単語レベルの摂動法を設計,実装する。
異なるNLPタスクに対する包括的実験を行い、入力摂動の異なるタイプの処理におけるBERT、XLNet、RoBERTa、ELMoといった高性能言語モデルの能力について検討する。
その結果, 言語モデルは入力摂動に敏感であり, 小さな変化が生じても性能が低下することが示唆された。
モデルをさらに改善し、現在のベンチマークがモデル堅牢性を十分に反映していない点を強調します。
摂動入力の評価は、NLPシステムの堅牢性をより現実的に理解するために、広く使われているベンチマークを日常的に補完するべきであると論じる。
関連論文リスト
- How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。
一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。
我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-04T13:39:21Z) - Enhancing adversarial robustness in Natural Language Inference using explanations [41.46494686136601]
自然言語推論(NLI)の未探索課題に注目点を当てた。
我々は、広範囲な実験を通じて、モデルに依存しない防衛戦略として、自然言語説明の使用を検証した。
本研究では,広範に使用されている言語生成指標と人間の知覚との相関について検討し,それらが堅牢なNLIモデルへのプロキシとして機能するようにした。
論文 参考訳(メタデータ) (2024-09-11T17:09:49Z) - COPAL: Continual Pruning in Large Language Generative Models [23.747878534962663]
COPALは、連続的なモデル適応設定の下で、大規模言語生成モデルを解析するために開発されたアルゴリズムである。
LLMの様々なサイズに対する実験的な評価は,COPALがベースラインモデルより優れていることを示している。
論文 参考訳(メタデータ) (2024-05-02T18:24:41Z) - Revisit Input Perturbation Problems for LLMs: A Unified Robustness
Evaluation Framework for Noisy Slot Filling Task [18.623619585980688]
本研究では,大言語モデルの対話理解能力を評価するために,スロット充足タスクに基づく統一ロバストネス評価フレームワークを提案する。
具体的には,5種類の単一摂動と4種類の混合摂動データを含む入力摂動評価データセットであるノイズLLMを構築した。
本研究の目的は,LLMの様々なロバスト性評価手法が実世界の雑音のシナリオでどの程度機能するかを評価することである。
論文 参考訳(メタデータ) (2023-10-10T10:22:05Z) - Tailoring Language Generation Models under Total Variation Distance [55.89964205594829]
ニューラルネットワーク生成の標準パラダイムは、最適化方法として最大推定(MLE)を採用する。
言語生成に適用するための実践的境界を開発する。
本稿では,TVD推定のトレードオフのバランスをとるためのTaiLr の目標について紹介する。
論文 参考訳(メタデータ) (2023-02-26T16:32:52Z) - Can NMT Understand Me? Towards Perturbation-based Evaluation of NMT
Models for Code Generation [1.7616042687330642]
NMTモデルの堅牢性を検証するための重要なステップは、その性能を逆入力で評価することである。
本研究では,そのようなモデルのロバスト性評価に適した摂動と測定値のセットを同定する。
モデルにどのような摂動が最も影響を与えるかを示す予備実験を行った。
論文 参考訳(メタデータ) (2022-03-29T08:01:39Z) - Distributionally Robust Recurrent Decoders with Random Network
Distillation [93.10261573696788]
本稿では,自動回帰言語モデルが推論中にOODコンテキストを無視できるように,ランダムネットワーク蒸留を用いたOOD検出に基づく手法を提案する。
提案手法をGRUアーキテクチャに適用し,複数の言語モデリング(LM)データセットの改善を実証する。
論文 参考訳(メタデータ) (2021-10-25T19:26:29Z) - Understanding Model Robustness to User-generated Noisy Texts [2.958690090551675]
NLPでは、スペルエラーなどの自然発生ノイズによってモデル性能が劣化することが多い。
本稿では,文法的誤り訂正コーパスから統計的に誤りをモデル化する。
論文 参考訳(メタデータ) (2021-10-14T14:54:52Z) - NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task
Models [54.184609286094044]
補助モデルと付加データなしで問題を解くための学習パラダイムとして,ノイズエントロピー正規化(NoiER)を提案する。
提案手法は,従来の微調整モデルと比較して平均55%改善した。
論文 参考訳(メタデータ) (2021-08-29T06:58:28Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。