論文の概要: Mask the Correct Tokens: An Embarrassingly Simple Approach for Error
Correction
- arxiv url: http://arxiv.org/abs/2211.13252v1
- Date: Wed, 23 Nov 2022 19:05:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 14:40:40.522903
- Title: Mask the Correct Tokens: An Embarrassingly Simple Approach for Error
Correction
- Title(参考訳): Mask the correct Tokens:Error Correctionに対する驚くほど単純なアプローチ
- Authors: Kai Shen, Yichong Leng, Xu Tan, Siliang Tang, Yuan Zhang, Wenjie Liu,
Edward Lin
- Abstract要約: 以前の誤り訂正法は、典型的にはソース(誤り)文をエンコーダ入力とし、デコーダを介してターゲット(正しい)文を生成する。
我々は,この目標を達成するために,シンプルだが効果的なマスキング戦略を提案する。
- 参考スコア(独自算出の注目度): 38.463639262607174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text error correction aims to correct the errors in text sequences such as
those typed by humans or generated by speech recognition models. Previous error
correction methods usually take the source (incorrect) sentence as encoder
input and generate the target (correct) sentence through the decoder. Since the
error rate of the incorrect sentence is usually low (e.g., 10\%), the
correction model can only learn to correct on limited error tokens but
trivially copy on most tokens (correct tokens), which harms the effective
training of error correction. In this paper, we argue that the correct tokens
should be better utilized to facilitate effective training and then propose a
simple yet effective masking strategy to achieve this goal. Specifically, we
randomly mask out a part of the correct tokens in the source sentence and let
the model learn to not only correct the original error tokens but also predict
the masked tokens based on their context information. Our method enjoys several
advantages: 1) it alleviates trivial copy; 2) it leverages effective training
signals from correct tokens; 3) it is a plug-and-play module and can be applied
to different models and tasks. Experiments on spelling error correction and
speech recognition error correction on Mandarin datasets and grammar error
correction on English datasets with both autoregressive and non-autoregressive
generation models show that our method improves the correction accuracy
consistently.
- Abstract(参考訳): テキスト誤り訂正は、人間が入力したり、音声認識モデルによって生成されたテキストシーケンスの誤りを訂正することを目的としている。
以前の誤り訂正方法は、通常、ソース(誤り)文をエンコーダ入力とし、デコーダを介してターゲット(正しい)文を生成する。
誤り文の誤り率は通常低い(例えば10\%)ため、訂正モデルは限定されたエラートークンの修正を学習するだけでなく、ほとんどのトークン(誤りトークン)を自明にコピーすることができ、エラー訂正の効果的なトレーニングに悪影響を及ぼす。
本稿では,適切なトークンを効果的に活用し,その目的を達成するための単純かつ効果的なマスキング戦略を提案する。
具体的には、原文中の正しいトークンの一部をランダムにマスクアウトし、元のエラートークンを訂正するだけでなく、コンテキスト情報に基づいてマスクされたトークンを予測することをモデルに教える。
我々の方法にはいくつかの利点がある。
1) 自明なコピーを緩和する。
2) 正しいトークンからの効果的な訓練信号を利用する。
3) プラグイン・アンド・プレイモジュールであり、異なるモデルやタスクに適用できる。
自動回帰型と非自己回帰型の両方のモデルを用いたマンダリンデータセットの綴り誤り訂正と音声認識誤り訂正実験および文法誤り訂正実験により,本手法の精度は一貫して向上することが示された。
関連論文リスト
- Subtle Errors Matter: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは定義済みの微妙な誤りを正しい解の部分的なトークンに注入し、エラー軽減のためにハードペアを構築する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでは、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善された。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - Alirector: Alignment-Enhanced Chinese Grammatical Error Corrector [25.450566841158864]
中国の文法的誤り訂正(CGEC)は、自己回帰生成モデルを採用する際に深刻な過度な過度な問題に直面している。
過補正問題に対するアライメント強化補正器を提案する。
3つのCGECデータセットの実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-02-07T05:56:54Z) - An Error-Guided Correction Model for Chinese Spelling Error Correction [13.56600372085612]
中国語の綴り訂正を改善するための誤り誘導補正モデル(EGCM)を提案する。
我々のモデルは、最先端のアプローチに対する優れた性能を顕著なマージンで達成する。
論文 参考訳(メタデータ) (2023-01-16T09:27:45Z) - SoftCorrect: Error Correction with Soft Detection for Automatic Speech
Recognition [116.31926128970585]
我々は,明示的かつ暗黙的な誤り検出の限界を回避するため,ソフトエラー検出機構を備えたSoftCorrectを提案する。
暗黙的な誤り検出とCTC損失と比較すると、SoftCorrectはどの単語が誤りであるかを明示的な信号を提供する。
AISHELL-1とAidatatangデータセットの実験では、SoftCorrectはそれぞれ26.1%と9.4%のCER削減を達成した。
論文 参考訳(メタデータ) (2022-12-02T09:11:32Z) - From Spelling to Grammar: A New Framework for Chinese Grammatical Error
Correction [12.170714706174314]
中国語の文法的誤り訂正(CGEC)は、誤ったシーケンスから正しい文を生成することを目的としている。
本稿では,CGECタスクをスペル誤り訂正と文法的誤り訂正という2つのステップに分割する。
本稿では,スペル誤り訂正のためのゼロショット手法を提案する。
文法的誤り訂正に対処するため、ニューラルネットワークモデルを強化するために、部分音声特徴と意味クラス特徴を設計する。
論文 参考訳(メタデータ) (2022-11-03T07:30:09Z) - FastCorrect: Fast Error Correction with Edit Alignment for Automatic
Speech Recognition [90.34177266618143]
編集アライメントに基づく新しいNAR誤り訂正モデルであるFastCorrectを提案する。
fastcorrectは推論を6-9倍高速化し、自己回帰補正モデルと比較して精度を8-14%向上させる。
ニューラルマシン翻訳で採用されている一般的なNARモデルの精度を、大きなマージンで上回っています。
論文 参考訳(メタデータ) (2021-05-09T05:35:36Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z) - ELECTRA: Pre-training Text Encoders as Discriminators Rather Than
Generators [108.3381301768299]
Masked Language Modeling (MLM) は、BERT のような事前学習手法で、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。
代用トークン検出という,より効率的な事前学習タスクを提案する。
論文 参考訳(メタデータ) (2020-03-23T21:17:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。