論文の概要: Noisy Text Data: Achilles' Heel of popular transformer based NLP models
- arxiv url: http://arxiv.org/abs/2110.03353v1
- Date: Thu, 7 Oct 2021 11:45:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-09 01:24:44.586216
- Title: Noisy Text Data: Achilles' Heel of popular transformer based NLP models
- Title(参考訳): ノイズの多いテキストデータ:人気のトランスフォーマーベースのnlpモデルのアキレスのヒール
- Authors: Kartikay Bagla, Ankit Kumar, Shivam Gupta, Anuj Gupta
- Abstract要約: 我々は,一般的なNLPタスクにおいて,一般的なトランスフォーマーベースNLPモデルの性能が劣ることを示す。
さらに、データのノイズが大きくなるにつれて、性能が低下することを示す。
この結果から,NLPモデルを微調整しながら,データセット内のノイズの有無が異なることが示唆された。
- 参考スコア(独自算出の注目度): 0.9826698192347084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the last few years, the ML community has created a number of new NLP
models based on transformer architecture. These models have shown great
performance for various NLP tasks on benchmark datasets, often surpassing SOTA
results. Buoyed with this success, one often finds industry practitioners
actively experimenting with fine-tuning these models to build NLP applications
for industry use cases. However, for most datasets that are used by
practitioners to build industrial NLP applications, it is hard to guarantee the
presence of any noise in the data. While most transformer based NLP models have
performed exceedingly well in transferring the learnings from one dataset to
another, it remains unclear how these models perform when fine-tuned on noisy
text. We address the open question by Kumar et al. (2020) to explore the
sensitivity of popular transformer based NLP models to noise in the text data.
We continue working with the noise as defined by them -- spelling mistakes &
typos (which are the most commonly occurring noise). We show (via experimental
results) that these models perform badly on most common NLP tasks namely text
classification, textual similarity, NER, question answering, text summarization
on benchmark datasets. We further show that as the noise in data increases, the
performance degrades. Our findings suggest that one must be vary of the
presence of noise in their datasets while fine-tuning popular transformer based
NLP models.
- Abstract(参考訳): ここ数年、MLコミュニティはトランスフォーマーアーキテクチャに基づいた新しいNLPモデルをいくつか作成してきた。
これらのモデルは、ベンチマークデータセット上で様々なNLPタスクに対して優れた性能を示しており、しばしばSOTA結果を上回っている。
この成功に気付くと、業界の実践者が積極的にこれらのモデルを微調整して業界ユースケース用のnlpアプリケーションを構築する実験をしているのがわかります。
しかしながら、実践者が産業用NLPアプリケーションを構築するために使用するほとんどのデータセットでは、データにノイズがあることを保証することは困難である。
ほとんどのトランスフォーマーベースのnlpモデルは、あるデータセットから別のデータセットへの学習の転送において非常によく機能しているが、ノイズの多いテキストで微調整された場合、これらのモデルがどのように機能するかは、まだ不明である。
Kumar et al. (2020) によるオープンな質問に対処し、一般的なトランスフォーマーベースのNLPモデルのテキストデータのノイズに対する感度について検討する。
それらによって定義されたノイズ -- 綴りミスとタイプミス (最も一般的に発生するノイズ) について作業を続けます。
実験結果から,これらのモデルは,テキスト分類,テキスト類似性,NER,質問応答,ベンチマークデータセットのテキスト要約など,最も一般的なNLPタスクにおいて著しく機能することを示した。
さらに、データのノイズが大きくなるにつれて、性能が低下することを示す。
この結果から,NLPモデルを微調整しながら,データセット内のノイズの有無が異なることが示唆された。
関連論文リスト
- Robust Neural Processes for Noisy Data [1.7268667700090563]
ノイズによってデータが汚染された場合の文脈内学習モデルの振る舞いについて検討する。
クリーンなデータで最高のパフォーマンスを示すモデルは、ノイズの多いデータで最高のパフォーマンスを示すモデルとは異なることが分かりました。
本稿では,NPモデルの学習方法を提案する。
論文 参考訳(メタデータ) (2024-11-03T20:00:55Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Noisy Pair Corrector for Dense Retrieval [59.312376423104055]
ノイズペアコレクタ(NPC)と呼ばれる新しい手法を提案する。
NPCは検出モジュールと修正モジュールから構成される。
我々は,テキスト検索ベンチマークのNatural QuestionとTriviaQA,コード検索ベンチマークのStaQCとSO-DSで実験を行った。
論文 参考訳(メタデータ) (2023-11-07T08:27:14Z) - An Empirical Study on Noisy Label Learning for Program Understanding [22.81028693504839]
本稿では,プログラム理解データセットの深層学習における雑音ラベル学習の有効性について検討する。
我々は,プログラム分類,脆弱性検出,コード要約という3つのタスクにおいて,様々なNLLアプローチとディープラーニングモデルを評価する。
我々の発見は、プログラム理解におけるNLLの能力に関する洞察を与え、ソフトウェアエンジニアリングデータセットのノイズに対処する将来の作業に光を当てることができると信じています。
論文 参考訳(メタデータ) (2023-07-18T06:04:20Z) - Improving the Robustness of Summarization Models by Detecting and
Removing Input Noise [50.27105057899601]
本研究では,様々な種類の入力ノイズから,様々なデータセットやモデルサイズに対する性能損失を定量化する大規模な実験的検討を行った。
本稿では,モデル推論中の入力中のそのようなノイズを検出し,除去するための軽量な手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T00:33:11Z) - Identifying Hard Noise in Long-Tailed Sample Distribution [76.16113794808001]
NLT(Noisy Long-Tailed Classification)を紹介する。
ほとんどのノイズ除去法は、ハードノイズを特定するのに失敗する。
我々はH2E(Hard-to-Easy)と呼ばれる反復的な雑音学習フレームワークを設計する。
論文 参考訳(メタデータ) (2022-07-27T09:03:03Z) - Learning with Noisy Labels Revisited: A Study Using Real-World Human
Annotations [54.400167806154535]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ラベルノイズに焦点を当てている。
本研究は2つの新しいベンチマークデータセット(CIFAR-10N, CIFAR-100N)を示す。
実世界のノイズラベルは古典的に採用されたクラス依存のラベルではなく、インスタンス依存のパターンに従うことを示す。
論文 参考訳(メタデータ) (2021-10-22T22:42:11Z) - Understanding Model Robustness to User-generated Noisy Texts [2.958690090551675]
NLPでは、スペルエラーなどの自然発生ノイズによってモデル性能が劣化することが多い。
本稿では,文法的誤り訂正コーパスから統計的に誤りをモデル化する。
論文 参考訳(メタデータ) (2021-10-14T14:54:52Z) - Robust Learning for Text Classification with Multi-source Noise
Simulation and Hard Example Mining [10.227121271126007]
実世界のアプリケーションでは、光学文字認識(OCR)エンジンが下流の自然言語処理(NLP)モデルにエラーや入力を導入することがある。
クリーンテキストから自然なOCRノイズを直接シミュレートする,シンプルだが効果的な手法を用いた,新しいロバストなトレーニングフレームワークを提案する。
3つの実世界のデータセットの実験により、提案されたフレームワークは、トレーニング済みモデルの堅牢性を大きなマージンで向上させることが示された。
論文 参考訳(メタデータ) (2021-07-15T04:39:22Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - A Neural Few-Shot Text Classification Reality Check [4.689945062721168]
いくつかのニューラルな数発の分類モデルが出現し、時間とともに大きな進歩をもたらした。
本稿では,これらのモデルを全て比較し,まず画像処理分野のモデルをNLPに適応させ,次にトランスにアクセスできるようにした。
次に,多数のクラスを持つことで知られるインテント検出タスクにおいて,同じトランスフォーマーベースのエンコーダを備えたモデルをテストする。
論文 参考訳(メタデータ) (2021-01-28T15:46:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。