論文の概要: Understanding Model Robustness to User-generated Noisy Texts
- arxiv url: http://arxiv.org/abs/2110.07428v1
- Date: Thu, 14 Oct 2021 14:54:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 13:55:34.227022
- Title: Understanding Model Robustness to User-generated Noisy Texts
- Title(参考訳): ユーザ生成ノイズテキストに対するモデルロバストネスの理解
- Authors: Jakub N\'aplava, Martin Popel, Milan Straka, Jana Strakov\'a
- Abstract要約: NLPでは、スペルエラーなどの自然発生ノイズによってモデル性能が劣化することが多い。
本稿では,文法的誤り訂正コーパスから統計的に誤りをモデル化する。
- 参考スコア(独自算出の注目度): 2.958690090551675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sensitivity of deep-neural models to input noise is known to be a challenging
problem. In NLP, model performance often deteriorates with naturally occurring
noise, such as spelling errors. To mitigate this issue, models may leverage
artificially noised data. However, the amount and type of generated noise has
so far been determined arbitrarily. We therefore propose to model the errors
statistically from grammatical-error-correction corpora. We present a thorough
evaluation of several state-of-the-art NLP systems' robustness in multiple
languages, with tasks including morpho-syntactic analysis, named entity
recognition, neural machine translation, a subset of the GLUE benchmark and
reading comprehension. We also compare two approaches to address the
performance drop: a) training the NLP models with noised data generated by our
framework; and b) reducing the input noise with external system for natural
language correction. The code is released at https://github.com/ufal/kazitext.
- Abstract(参考訳): 入力ノイズに対する深層神経モデルの感度は難しい問題であることが知られている。
NLPでは、スペルエラーなどの自然発生ノイズによってモデル性能が劣化することが多い。
この問題を緩和するために、モデルは人工ノイズデータを利用する。
しかし, 発生騒音の量と種類は従来から任意に決定されてきた。
そこで,文法的誤り訂正コーパスから統計的に誤差をモデル化する。
本稿では,複数言語における最先端NLPシステムのロバスト性について,モルフォ・シンタクティック解析,エンティティ認識,ニューラルマシン翻訳,GLUEベンチマークのサブセット,読解理解などのタスクを網羅的に評価する。
また、パフォーマンス低下に対処するための2つのアプローチを比較します。
a) 当社のフレームワークが生成したノイズデータを用いたNLPモデルのトレーニング,及び
b) 自然言語補正のための外部システムによる入力ノイズの低減。
コードはhttps://github.com/ufal/kazitextでリリースされる。
関連論文リスト
- HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Improving the Robustness of Summarization Models by Detecting and
Removing Input Noise [50.27105057899601]
本研究では,様々な種類の入力ノイズから,様々なデータセットやモデルサイズに対する性能損失を定量化する大規模な実験的検討を行った。
本稿では,モデル推論中の入力中のそのようなノイズを検出し,除去するための軽量な手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T00:33:11Z) - Denoising Enhanced Distantly Supervised Ultrafine Entity Typing [36.14308856513851]
本研究では,未知のラベル付き雑音分布を入力コンテキストおよび雑音型ラベル上で推定するノイズモデルを構築した。
ノイズモデルにより、推定ノイズを入力から減じることで、より信頼できるラベルを復元することができる。
本稿では,バイエンコーダアーキテクチャを採用したエンティティ型付けモデルを提案する。
論文 参考訳(メタデータ) (2022-10-18T05:20:16Z) - Robustification of Multilingual Language Models to Real-world Noise with
Robust Contrastive Pretraining [14.087882550564169]
ノイズの多いデータに基づいてニューラルモデルのロバスト性を評価し,改良は英語に限られていることを示唆する。
事前訓練された多言語モデルの性能をベンチマークするために、5つの言語と4つのNLPタスクをカバーするノイズの多いデータセットを構築した。
本稿では,多言語事前学習モデルのゼロショット言語間ロバスト性を高めるために,ロバストコントラスト事前学習(RCP)を提案する。
論文 参考訳(メタデータ) (2022-10-10T15:40:43Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task
Models [54.184609286094044]
補助モデルと付加データなしで問題を解くための学習パラダイムとして,ノイズエントロピー正規化(NoiER)を提案する。
提案手法は,従来の微調整モデルと比較して平均55%改善した。
論文 参考訳(メタデータ) (2021-08-29T06:58:28Z) - Evaluating the Robustness of Neural Language Models to Input
Perturbations [7.064032374579076]
本研究では,雑音の多い入力テキストをシミュレートするために,文字レベルおよび単語レベルの摂動法を設計し,実装する。
本稿では,BERT,XLNet,RoBERTa,ELMoなどの高性能言語モデルを用いて,入力摂動の異なるタイプの処理能力について検討する。
その結果, 言語モデルは入力摂動に敏感であり, 小さな変化が生じても性能が低下することが示唆された。
論文 参考訳(メタデータ) (2021-08-27T12:31:17Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - Word Shape Matters: Robust Machine Translation with Visual Embedding [78.96234298075389]
文字レベルNLPモデルの入力シンボルを新たに符号化する。
文字が印刷されたときの画像を通して各文字の形状をエンコードする。
我々はこの新たな戦略を視覚的埋め込みと呼び、NLPモデルの堅牢性を向上させることが期待されている。
論文 参考訳(メタデータ) (2020-10-20T04:08:03Z) - NAT: Noise-Aware Training for Robust Neural Sequence Labeling [30.91638109413785]
入力におけるシーケンスラベリングのロバスト性を改善する2つのノイズ・アウェア・トレーニング(NAT)目標を提案する。
我々のデータ拡張法は、クリーンなサンプルとノイズの多いサンプルの混合を用いてニューラルモデルを訓練する一方、安定性のトレーニングアルゴリズムは、ノイズ不変の潜在表現を作成することを奨励する。
英語とドイツ語の名前付きエンティティ認識ベンチマークの実験では、NATは人気のあるシークエンスラベリングモデルの堅牢性を一貫して改善した。
論文 参考訳(メタデータ) (2020-05-14T17:30:06Z) - Contextual Text Denoising with Masked Language Models [21.923035129334373]
そこで本研究では,既使用マスキング言語モデルに基づく文脈記述型音声認識アルゴリズムを提案する。
提案アルゴリズムはモデルの再学習を必要とせず,任意のNLPシステムに統合可能である。
論文 参考訳(メタデータ) (2019-10-30T18:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。