論文の概要: An Alignment-Agnostic Model for Chinese Text Error Correction
- arxiv url: http://arxiv.org/abs/2104.07190v1
- Date: Thu, 15 Apr 2021 01:17:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 15:16:51.169683
- Title: An Alignment-Agnostic Model for Chinese Text Error Correction
- Title(参考訳): 中国語誤り訂正のためのアライメント非依存モデル
- Authors: Liying Zheng, Yue Deng, Weishun Song, Liang Xu, Jing Xiao
- Abstract要約: 本稿では,誤字・欠字・冗長字の種類で中国語の誤りを訂正する方法を検討する。
ほとんどの既存モデルは誤り文字の誤りを訂正できるが、欠落文字や冗長文字を扱うことはできない。
本稿では,テキストアライメントと非アライメントの両方を処理可能な,アライメント非依存な新たな検出訂正フレームワークを提案する。
- 参考スコア(独自算出の注目度): 17.429266115653007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates how to correct Chinese text errors with types of
mistaken, missing and redundant characters, which is common for Chinese native
speakers. Most existing models based on detect-correct framework can correct
mistaken characters errors, but they cannot deal with missing or redundant
characters. The reason is that lengths of sentences before and after correction
are not the same, leading to the inconsistence between model inputs and
outputs. Although the Seq2Seq-based or sequence tagging methods provide
solutions to the problem and achieved relatively good results on English
context, but they do not perform well in Chinese context according to our
experimental results. In our work, we propose a novel detect-correct framework
which is alignment-agnostic, meaning that it can handle both text aligned and
non-aligned occasions, and it can also serve as a cold start model when there
are no annotated data provided. Experimental results on three datasets
demonstrate that our method is effective and achieves the best performance
among existing published models.
- Abstract(参考訳): 本稿では,中国語母語話者に共通する誤り文字,欠落文字,冗長文字を用いて,漢字誤りの訂正方法について検討する。
検出訂正フレームワークに基づく既存のモデルの多くは誤り文字の誤りを訂正できるが、欠落文字や冗長文字を扱うことはできない。
理由は、修正前後の文の長さが同じではないため、モデル入力と出力の矛盾が生じるからである。
seq2seqベースまたはシーケンスタグ付け法はこの問題に対する解決策を提供し、英語の文脈では比較的良い結果を得たが、実験結果に従って中国語の文脈ではうまく機能しない。
本研究では,アライメントに依存しない新たな検出補正フレームワークを提案する。つまり,テキストアライメントと非アライメントの両方に対応できると同時に,アノテートされたデータが提供されていない場合にはコールドスタートモデルとしても機能する。
3つのデータセットに対する実験結果から,本手法は有効であり,既存のモデルで最高の性能を発揮することが示された。
関連論文リスト
- Is it an i or an l: Test-time Adaptation of Text Line Recognition Models [9.149602257966917]
テスト期間中にテキスト行認識モデルを適用する問題について紹介する。
本稿では,光学モデルの更新に言語モデルからのフィードバックを利用する反復的自己学習手法を提案する。
実験の結果,提案手法は文字誤り率を最大8%向上させることができた。
論文 参考訳(メタデータ) (2023-08-29T05:44:00Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - Towards Fine-Grained Information: Identifying the Type and Location of
Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。
我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。
実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-02-17T16:20:33Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - An Error-Guided Correction Model for Chinese Spelling Error Correction [13.56600372085612]
中国語の綴り訂正を改善するための誤り誘導補正モデル(EGCM)を提案する。
我々のモデルは、最先端のアプローチに対する優れた性能を顕著なマージンで達成する。
論文 参考訳(メタデータ) (2023-01-16T09:27:45Z) - A Chinese Spelling Check Framework Based on Reverse Contrastive Learning [4.60495447017298]
本稿では,中国語のスペルチェックのための新しいフレームワークを提案する。
具体的には,モデルに類似事例間の合意を最小化するよう強制する,逆対比学習戦略を提案する。
実験結果から,本フレームワークはモデル非依存であり,既存の中国語スペルチェックモデルと組み合わせることで,最先端の性能が得られることが示された。
論文 参考訳(メタデータ) (2022-10-25T08:05:38Z) - Factual Error Correction for Abstractive Summaries Using Entity
Retrieval [57.01193722520597]
本稿では,エンティティ検索後処理に基づく効率的な事実誤り訂正システムRFECを提案する。
RFECは、原文と対象要約とを比較して、原文から証拠文を検索する。
次に、RFECは、エビデンス文を考慮し、要約中のエンティティレベルのエラーを検出し、エビデンス文から正確なエンティティに置換する。
論文 参考訳(メタデータ) (2022-04-18T11:35:02Z) - Improving Pre-trained Language Models with Syntactic Dependency
Prediction Task for Chinese Semantic Error Recognition [52.55136323341319]
既存の中国語のテキスト誤り検出は主にスペルと単純な文法的誤りに焦点を当てている。
中国の意味的誤りは、人間が容易に認識できないほど過小評価され、複雑である。
論文 参考訳(メタデータ) (2022-04-15T13:55:32Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。