論文の概要: CSED: A Chinese Semantic Error Diagnosis Corpus
- arxiv url: http://arxiv.org/abs/2305.05183v1
- Date: Tue, 9 May 2023 05:33:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 13:45:51.906590
- Title: CSED: A Chinese Semantic Error Diagnosis Corpus
- Title(参考訳): csed:中国語意味的誤り診断コーパス
- Authors: Bo Sun, Baoxin Wang, Yixuan Wang, Wanxiang Che, Dayong Wu, Shijin Wang
and Ting Liu
- Abstract要約: 関連するデータセットが欠如している中国の意味的誤り診断(CSED)の複雑な問題について検討する。
意味的誤りの研究は、それらが非常に一般的であり、統語的不規則や理解の問題に繋がる可能性があるため重要である。
本稿では,CSEDタスクに適応する構文認識モデルを提案する。
- 参考スコア(独自算出の注目度): 52.92010408053424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, much Chinese text error correction work has focused on Chinese
Spelling Check (CSC) and Chinese Grammatical Error Diagnosis (CGED). In
contrast, little attention has been paid to the complicated problem of Chinese
Semantic Error Diagnosis (CSED), which lacks relevant datasets. The study of
semantic errors is important because they are very common and may lead to
syntactic irregularities or even problems of comprehension. To investigate
this, we build the CSED corpus, which includes two datasets. The one is for the
CSED-Recognition (CSED-R) task. The other is for the CSED-Correction (CSED-C)
task. Our annotation guarantees high-quality data through quality assurance
mechanisms. Our experiments show that powerful pre-trained models perform
poorly on this corpus. We also find that the CSED task is challenging, as
evidenced by the fact that even humans receive a low score. This paper proposes
syntax-aware models to specifically adapt to the CSED task. The experimental
results show that the introduction of the syntax-aware approach is meaningful.
- Abstract(参考訳): 近年,漢文誤り訂正作業の多くは,中国語綴りチェック(csc)と中国語文法誤り診断(cged)に焦点を当てている。
対照的に、関連するデータセットが欠如している中国のセマンティックエラー診断(CSED)の複雑な問題にはほとんど注意が払われていない。
意味的誤りの研究は非常に一般的であり、統語的不規則や理解の問題につながる可能性がある。
そこで我々は,2つのデータセットを含むCSEDコーパスを構築した。
1つはCSED-Recognition(CSED-R)タスクである。
もう1つはCSED-C(CSED-C)タスク用である。
我々のアノテーションは品質保証機構を通じて高品質なデータを保証する。
実験の結果,このコーパスでは強力な事前学習モデルの性能が低かった。
CSEDタスクは、人間でさえスコアが低いという事実によって証明されているように、難しい。
本稿では,CSEDタスクに適応する構文認識モデルを提案する。
実験の結果,構文認識アプローチの導入は有意義であることがわかった。
関連論文リスト
- A Coin Has Two Sides: A Novel Detector-Corrector Framework for Chinese Spelling Correction [79.52464132360618]
中国語のSpelling Correction(CSC)は、自然言語処理(NLP)の基本課題である。
本稿では,エラー検出・相関器の枠組みに基づく新しい手法を提案する。
我々の検出器は2つのエラー検出結果を得るように設計されており、それぞれ高精度とリコールが特徴である。
論文 参考訳(メタデータ) (2024-09-06T09:26:45Z) - SUT: Active Defects Probing for Transcompiler Models [24.01532199512389]
我々は、プログラミング言語翻訳のための新しいメトリクスを導入し、これらのメトリクスは基本的な構文エラーに対処する。
実験によると、ChatGPTのような強力なモデルでさえ、これらの基本的な単体テストで間違いを犯している。
論文 参考訳(メタデータ) (2023-10-22T07:16:02Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - Error-Robust Retrieval for Chinese Spelling Check [43.56073620728942]
Chinese Spelling Check (CSC)は、中国のコンテキストにおけるエラートークンの検出と修正を目的としている。
これまでの方法では、既存のデータセットを完全に活用できない場合がある。
そこで我々は,中国語スペルチェックのための誤り情報付きプラグ・アンド・プレイ検索手法を提案する。
論文 参考訳(メタデータ) (2022-11-15T01:55:34Z) - uChecker: Masked Pretrained Language Models as Unsupervised Chinese
Spelling Checkers [23.343006562849126]
そこで我々はtextbfuChecker というフレームワークを提案し,教師なしのスペル検出と修正を行う。
BERTのようなマスキーク事前訓練言語モデルをバックボーンモデルとして導入する。
各種フレキシブルなMASKの操作に特化して,マスク付き言語モデルを微調整するためのコンフュージョンセット誘導マスキング戦略を提案する。
論文 参考訳(メタデータ) (2022-09-15T05:57:12Z) - Improving Pre-trained Language Models with Syntactic Dependency
Prediction Task for Chinese Semantic Error Recognition [52.55136323341319]
既存の中国語のテキスト誤り検出は主にスペルと単純な文法的誤りに焦点を当てている。
中国の意味的誤りは、人間が容易に認識できないほど過小評価され、複雑である。
論文 参考訳(メタデータ) (2022-04-15T13:55:32Z) - A Syntax-Guided Grammatical Error Correction Model with Dependency Tree
Correction [83.14159143179269]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、文中の文法的誤りを検出し、訂正するタスクである。
本稿では,依存木の構文知識を利用するためのグラフアテンション機構を採用した構文誘導型GECモデル(SG-GEC)を提案する。
我々は、GECタスクの公開ベンチマークでモデルを評価し、競争結果を得る。
論文 参考訳(メタデータ) (2021-11-05T07:07:48Z) - Improving the Efficiency of Grammatical Error Correction with Erroneous
Span Detection and Correction [106.63733511672721]
ESD(Eroneous Span Detection)とESC(Eroneous Span Correction)の2つのサブタスクに分割することで、文法的誤り訂正(GEC)の効率を改善するための言語に依存しない新しいアプローチを提案する。
ESDは、効率的なシーケンスタグ付けモデルを用いて文法的に誤りテキストスパンを識別する。ESCは、Seq2seqモデルを利用して、注釈付き誤字スパンの文を入力として取り、これらのスパンの修正テキストのみを出力する。
実験の結果,提案手法は英語と中国語のGECベンチマークにおいて従来のセク2seq手法と同等に動作し,推論に要するコストは50%以下であった。
論文 参考訳(メタデータ) (2020-10-07T08:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。