論文の概要: Empirical Error Modeling Improves Robustness of Noisy Neural Sequence
Labeling
- arxiv url: http://arxiv.org/abs/2105.11872v1
- Date: Tue, 25 May 2021 12:15:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-26 14:15:58.134236
- Title: Empirical Error Modeling Improves Robustness of Noisy Neural Sequence
Labeling
- Title(参考訳): 経験的誤りモデリングはノイズニューラル列ラベルのロバスト性を改善する
- Authors: Marcin Namysl, Sven Behnke, Joachim K\"ohler
- Abstract要約: 本稿では,誤りのないテキストから誤文への変換を訓練したシーケンス・ツー・シーケンスモデルを用いた経験的誤り生成手法を提案する。
テキスト入力が不完全である場合にさらに悪化するデータ空間の問題に対処するため,ノイズの多い言語モデルによる埋め込みを学習した。
提案手法は, 誤り系列ラベリングデータセットのベースラインノイズ発生と誤り訂正技術より優れていた。
- 参考スコア(独自算出の注目度): 26.27504889360246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent advances, standard sequence labeling systems often fail when
processing noisy user-generated text or consuming the output of an Optical
Character Recognition (OCR) process. In this paper, we improve the noise-aware
training method by proposing an empirical error generation approach that
employs a sequence-to-sequence model trained to perform translation from
error-free to erroneous text. Using an OCR engine, we generated a large
parallel text corpus for training and produced several real-world noisy
sequence labeling benchmarks for evaluation. Moreover, to overcome the data
sparsity problem that exacerbates in the case of imperfect textual input, we
learned noisy language model-based embeddings. Our approach outperformed the
baseline noise generation and error correction techniques on the erroneous
sequence labeling data sets. To facilitate future research on robustness, we
make our code, embeddings, and data conversion scripts publicly available.
- Abstract(参考訳): 近年の進歩にもかかわらず、標準シーケンスラベリングシステムは、ノイズの多いユーザ生成テキストを処理する場合や、光学文字認識(OCR)プロセスの出力を消費する場合にしばしば失敗する。
本稿では,誤りのないテキストから誤文への変換を行うために訓練されたシーケンス・ツー・シーケンスモデルを用いた経験的誤り生成手法を提案する。
OCRエンジンを用いて、トレーニング用の大規模並列テキストコーパスを生成し、評価のための実世界のノイズシークエンスラベリングベンチマークを作成した。
さらに,不完全なテキスト入力の場合,さらに悪化するデータ疎結合の問題に対処するため,ノイズの多い言語モデルによる埋め込みを学習した。
提案手法は, 誤り系列ラベリングデータセットのベースラインノイズ発生と誤り訂正技術より優れていた。
堅牢性に関する今後の研究を促進するために、コード、組み込み、データ変換スクリプトを公開しています。
関連論文リスト
- Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - Optimized Tokenization for Transcribed Error Correction [10.297878672883973]
本研究では, 合成データのみを用いたトレーニングにより, 補正モデルの性能を著しく向上させることができることを示す。
具体的には、一組の転写データから得られた誤差分布を用いて生成された合成データが、ランダムな摂動を適用する一般的な手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-16T12:14:21Z) - Error Norm Truncation: Robust Training in the Presence of Data Noise for Text Generation Models [39.37532848489779]
本稿では,ノイズの多いデータをトラストする標準学習目標に対する頑健な強化手法であるError Norm Truncation (ENT)を提案する。
ENTは,従来のソフト・ハード・トランケーション法よりも生成品質の向上を図っている。
論文 参考訳(メタデータ) (2023-10-02T01:30:27Z) - You Can Generate It Again: Data-to-text Generation with Verification and
Correction Prompting [20.89979858757123]
マルチステッププロセスを導入することで,従来のワンショット生成手法を超越した新しい手法を提案する。
検証ステップからの観察は、特殊なエラー表示プロンプトに変換され、モデルに出力を再生するように指示する。
この手順により、モデルがエラー表示プロンプトからのフィードバックを組み込むことができ、結果として出力生成が改善される。
論文 参考訳(メタデータ) (2023-06-28T05:34:25Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Understanding Model Robustness to User-generated Noisy Texts [2.958690090551675]
NLPでは、スペルエラーなどの自然発生ノイズによってモデル性能が劣化することが多い。
本稿では,文法的誤り訂正コーパスから統計的に誤りをモデル化する。
論文 参考訳(メタデータ) (2021-10-14T14:54:52Z) - Improving Translation Robustness with Visual Cues and Error Correction [58.97421756225425]
ノイズの多いテキストに対する翻訳の堅牢性を改善するビジュアルコンテキストのアイデアを紹介します。
また,誤り訂正を補助タスクとして扱うことで,新しい誤り訂正訓練手法を提案する。
論文 参考訳(メタデータ) (2021-03-12T15:31:34Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z) - A Self-Refinement Strategy for Noise Reduction in Grammatical Error
Correction [54.569707226277735]
既存の文法的誤り訂正(GEC)のアプローチは、手動で作成したGECデータセットによる教師あり学習に依存している。
誤りが不適切に編集されたり、修正されなかったりする「ノイズ」は無視できないほどある。
本稿では,既存のモデルの予測整合性を利用して,これらのデータセットをデノマイズする自己補充手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T04:45:09Z) - NAT: Noise-Aware Training for Robust Neural Sequence Labeling [30.91638109413785]
入力におけるシーケンスラベリングのロバスト性を改善する2つのノイズ・アウェア・トレーニング(NAT)目標を提案する。
我々のデータ拡張法は、クリーンなサンプルとノイズの多いサンプルの混合を用いてニューラルモデルを訓練する一方、安定性のトレーニングアルゴリズムは、ノイズ不変の潜在表現を作成することを奨励する。
英語とドイツ語の名前付きエンティティ認識ベンチマークの実験では、NATは人気のあるシークエンスラベリングモデルの堅牢性を一貫して改善した。
論文 参考訳(メタデータ) (2020-05-14T17:30:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。