論文の概要: Robust Learning for Text Classification with Multi-source Noise
Simulation and Hard Example Mining
- arxiv url: http://arxiv.org/abs/2107.07113v1
- Date: Thu, 15 Jul 2021 04:39:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-16 14:15:23.970263
- Title: Robust Learning for Text Classification with Multi-source Noise
Simulation and Hard Example Mining
- Title(参考訳): マルチソースノイズシミュレーションとハードサンプルマイニングによるテキスト分類のためのロバスト学習
- Authors: Guowei Xu, Wenbiao Ding, Weiping Fu, Zhongqin Wu, Zitao Liu
- Abstract要約: 実世界のアプリケーションでは、光学文字認識(OCR)エンジンが下流の自然言語処理(NLP)モデルにエラーや入力を導入することがある。
クリーンテキストから自然なOCRノイズを直接シミュレートする,シンプルだが効果的な手法を用いた,新しいロバストなトレーニングフレームワークを提案する。
3つの実世界のデータセットの実験により、提案されたフレームワークは、トレーニング済みモデルの堅牢性を大きなマージンで向上させることが示された。
- 参考スコア(独自算出の注目度): 10.227121271126007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many real-world applications involve the use of Optical Character Recognition
(OCR) engines to transform handwritten images into transcripts on which
downstream Natural Language Processing (NLP) models are applied. In this
process, OCR engines may introduce errors and inputs to downstream NLP models
become noisy. Despite that pre-trained models achieve state-of-the-art
performance in many NLP benchmarks, we prove that they are not robust to noisy
texts generated by real OCR engines. This greatly limits the application of NLP
models in real-world scenarios. In order to improve model performance on noisy
OCR transcripts, it is natural to train the NLP model on labelled noisy texts.
However, in most cases there are only labelled clean texts. Since there is no
handwritten pictures corresponding to the text, it is impossible to directly
use the recognition model to obtain noisy labelled data. Human resources can be
employed to copy texts and take pictures, but it is extremely expensive
considering the size of data for model training. Consequently, we are
interested in making NLP models intrinsically robust to OCR errors in a low
resource manner. We propose a novel robust training framework which 1) employs
simple but effective methods to directly simulate natural OCR noises from clean
texts and 2) iteratively mines the hard examples from a large number of
simulated samples for optimal performance. 3) To make our model learn
noise-invariant representations, a stability loss is employed. Experiments on
three real-world datasets show that the proposed framework boosts the
robustness of pre-trained models by a large margin. We believe that this work
can greatly promote the application of NLP models in actual scenarios, although
the algorithm we use is simple and straightforward. We make our codes and three
datasets publicly
available\footnote{https://github.com/tal-ai/Robust-learning-MSSHEM}.
- Abstract(参考訳): 実世界の多くのアプリケーションは、ocr(optical character recognition)エンジンを使用して手書き画像を下流自然言語処理(nlp)モデルが適用される転写物に変換する。
このプロセスでは、OCRエンジンが下流のNLPモデルにエラーや入力を導入し、ノイズが発生する。
多くのNLPベンチマークにおいて、事前学習されたモデルは最先端のパフォーマンスを達成するが、実OCRエンジンが生成するノイズの多いテキストには頑健でないことが証明されている。
これは実世界のシナリオにおけるnlpモデルの適用を大幅に制限する。
ノイズの多いOCRテキスト上でのモデル性能を改善するために,ラベル付きノイズテキスト上でNLPモデルをトレーニングするのは自然である。
しかし、ほとんどの場合、クリーンテキストがラベル付けされているだけである。
テキストに対応する手書き画像がないため、認識モデルを直接使用してノイズの多いラベル付きデータを取得することは不可能である。
人的資源はテキストのコピーや写真を撮るのに利用できるが、モデルのトレーニングのためのデータのサイズを考えると、非常に高価である。
その結果,NLPモデルをOCRエラーに対して低リソースで本質的に堅牢にすることに興味がある。
本研究では,1)クリーンテキストから自然のocrノイズを直接シミュレートする簡易かつ効果的な手法を用いて,2)多数のシミュレーションサンプルからハードサンプルを反復的に抽出し,最適な評価を行う,新しいロバストトレーニングフレームワークを提案する。
3) モデルにノイズ不変表現を学習させるには, 安定性損失が用いられる。
3つの実世界のデータセットの実験により、提案されたフレームワークは、トレーニング済みモデルの堅牢性を大きなマージンで向上させることが示された。
この研究は、実際のシナリオにおけるNLPモデルの適用を大いに促進できると信じていますが、我々の使用するアルゴリズムは単純で簡単です。
コードと3つのデータセットを公開しています。footnote{https://github.com/tal-ai/Robust-learning-MSSHEM}。
関連論文リスト
- SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。
SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。
我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-08-25T17:07:39Z) - Noisy Pair Corrector for Dense Retrieval [59.312376423104055]
ノイズペアコレクタ(NPC)と呼ばれる新しい手法を提案する。
NPCは検出モジュールと修正モジュールから構成される。
我々は,テキスト検索ベンチマークのNatural QuestionとTriviaQA,コード検索ベンチマークのStaQCとSO-DSで実験を行った。
論文 参考訳(メタデータ) (2023-11-07T08:27:14Z) - EfficientOCR: An Extensible, Open-Source Package for Efficiently
Digitizing World Knowledge [1.8434042562191815]
EffOCRは、オープンソースの光文字認識(OCR)パッケージである。
これは、大規模にテキストを解放するための計算とサンプルの効率の要求を満たす。
EffOCRは安価で、トレーニングにはサンプルの効率がよい。
論文 参考訳(メタデータ) (2023-10-16T04:20:16Z) - Noisy Parallel Data Alignment [36.578851892373365]
既存の単語レベルのアライメントモデルをノイズの多い設定で検討し、ノイズの多いデータに対してより堅牢にすることを目的としている。
複数の言語ペアでテストされたノイズシミュレーションと構造バイアス法により,最先端のニューラルベースアライメントモデルにおけるアライメントエラー率を59.6%に抑えることができた。
論文 参考訳(メタデータ) (2023-01-23T19:26:34Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Noisy Text Data: Achilles' Heel of popular transformer based NLP models [0.9826698192347084]
我々は,一般的なNLPタスクにおいて,一般的なトランスフォーマーベースNLPモデルの性能が劣ることを示す。
さらに、データのノイズが大きくなるにつれて、性能が低下することを示す。
この結果から,NLPモデルを微調整しながら,データセット内のノイズの有無が異なることが示唆された。
論文 参考訳(メタデータ) (2021-10-07T11:45:31Z) - TrOCR: Transformer-based Optical Character Recognition with Pre-trained
Models [47.48019831416665]
本稿では,事前学習した画像変換器とテキスト変換器モデル,すなわちTrOCRを用いたエンドツーエンドのテキスト認識手法を提案する。
TrOCRは単純だが効果的であり、大規模な合成データで事前訓練し、人間のラベル付きデータセットで微調整することができる。
実験により、TrOCRモデルは、印刷されたテキスト認識タスクと手書きのテキスト認識タスクの両方において、現在の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-09-21T16:01:56Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - Word Shape Matters: Robust Machine Translation with Visual Embedding [78.96234298075389]
文字レベルNLPモデルの入力シンボルを新たに符号化する。
文字が印刷されたときの画像を通して各文字の形状をエンコードする。
我々はこの新たな戦略を視覚的埋め込みと呼び、NLPモデルの堅牢性を向上させることが期待されている。
論文 参考訳(メタデータ) (2020-10-20T04:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。