論文の概要: Improving Pre-trained Language Models with Syntactic Dependency
Prediction Task for Chinese Semantic Error Recognition
- arxiv url: http://arxiv.org/abs/2204.07464v1
- Date: Fri, 15 Apr 2022 13:55:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-18 14:43:32.747190
- Title: Improving Pre-trained Language Models with Syntactic Dependency
Prediction Task for Chinese Semantic Error Recognition
- Title(参考訳): 中国語意味的誤り認識のための構文依存予測タスクによる事前学習言語モデルの改善
- Authors: Bo Sun, Baoxin Wang, Wanxiang Che, Dayong Wu, Zhigang Chen, Ting Liu
- Abstract要約: 既存の中国語のテキスト誤り検出は主にスペルと単純な文法的誤りに焦点を当てている。
中国の意味的誤りは、人間が容易に認識できないほど過小評価され、複雑である。
- 参考スコア(独自算出の注目度): 52.55136323341319
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing Chinese text error detection mainly focuses on spelling and simple
grammatical errors. These errors have been studied extensively and are
relatively simple for humans. On the contrary, Chinese semantic errors are
understudied and more complex that humans cannot easily recognize. The task of
this paper is Chinese Semantic Error Recognition (CSER), a binary
classification task to determine whether a sentence contains semantic errors.
The current research has no effective method to solve this task. In this paper,
we inherit the model structure of BERT and design several syntax-related
pre-training tasks so that the model can learn syntactic knowledge. Our
pre-training tasks consider both the directionality of the dependency structure
and the diversity of the dependency relationship. Due to the lack of a
published dataset for CSER, we build a high-quality dataset for CSER for the
first time named Corpus of Chinese Linguistic Semantic Acceptability (CoCLSA).
The experimental results on the CoCLSA show that our methods outperform
universal pre-trained models and syntax-infused models.
- Abstract(参考訳): 既存の中国語のテキスト誤り検出は主にスペルと単純な文法的誤りに焦点を当てている。
これらの誤りは広く研究され、人間にとって比較的単純である。
反対に、中国の意味的誤りは、人間が容易に認識できないほど過小評価され複雑である。
本論文のタスクは中国語意味的誤り認識 (cser) であり、文が意味的誤りを含むかどうかを判定する二項分類タスクである。
現在の研究では、この課題を解決する効果的な方法がない。
本稿では、BERTのモデル構造を継承し、構文関連事前学習タスクを設計し、モデルが構文知識を学習できるようにする。
我々の事前学習タスクは、依存構造の方向性と依存関係の多様性の両方を考慮する。
CSERのデータセットが公開されていないため、我々はCSERの高品質なデータセットを初めて構築し、Corp of Chinese Linguistic Semantic Acceptability (CoCLSA)と名付けた。
coclsaの実験結果から,本手法は普遍的事前学習モデルや構文統合モデルよりも優れていることが示された。
関連論文リスト
- Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - CSED: A Chinese Semantic Error Diagnosis Corpus [52.92010408053424]
関連するデータセットが欠如している中国の意味的誤り診断(CSED)の複雑な問題について検討する。
意味的誤りの研究は、それらが非常に一般的であり、統語的不規則や理解の問題に繋がる可能性があるため重要である。
本稿では,CSEDタスクに適応する構文認識モデルを提案する。
論文 参考訳(メタデータ) (2023-05-09T05:33:31Z) - Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。
我々は,単語順序の重要性を維持するために強制的無効化を提案する。
実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-04-11T13:42:10Z) - uChecker: Masked Pretrained Language Models as Unsupervised Chinese
Spelling Checkers [23.343006562849126]
そこで我々はtextbfuChecker というフレームワークを提案し,教師なしのスペル検出と修正を行う。
BERTのようなマスキーク事前訓練言語モデルをバックボーンモデルとして導入する。
各種フレキシブルなMASKの操作に特化して,マスク付き言語モデルを微調整するためのコンフュージョンセット誘導マスキング戦略を提案する。
論文 参考訳(メタデータ) (2022-09-15T05:57:12Z) - The Past Mistake is the Future Wisdom: Error-driven Contrastive
Probability Optimization for Chinese Spell Checking [32.8563506271794]
中国語のスペルチェック(CSC)は、中国語のスペルエラーを検出し修正することを目的としている。
プレトレーニング言語モデル(PLM)は、CSCタスクの進行を促進する。
本稿では,CSCタスクに対する誤り駆動型Contrastive Probability Optimizationフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-02T09:58:56Z) - A Syntax-Guided Grammatical Error Correction Model with Dependency Tree
Correction [83.14159143179269]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、文中の文法的誤りを検出し、訂正するタスクである。
本稿では,依存木の構文知識を利用するためのグラフアテンション機構を採用した構文誘導型GECモデル(SG-GEC)を提案する。
我々は、GECタスクの公開ベンチマークでモデルを評価し、競争結果を得る。
論文 参考訳(メタデータ) (2021-11-05T07:07:48Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。