論文の概要: SDCL: Self-Distillation Contrastive Learning for Chinese Spell Checking
- arxiv url: http://arxiv.org/abs/2210.17168v3
- Date: Thu, 3 Nov 2022 08:54:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 11:49:05.082815
- Title: SDCL: Self-Distillation Contrastive Learning for Chinese Spell Checking
- Title(参考訳): SDCL:中国語スペルチェックのための自己拡張コントラスト学習
- Authors: Xiaotian Zhang, Hang Yan, Sun Yu, Xipeng Qiu
- Abstract要約: 本稿では,中国のスペルチェックタスクにBERTを適用するためのトークンレベルの自己蒸留コントラスト学習手法を提案する。
コントラスト学習損失を用いて、不正なトークンの隠された状態を正規化し、正しい文でそれに近いものにします。
- 参考スコア(独自算出の注目度): 48.12125502456953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the ambiguity of homophones, Chinese Spell Checking (CSC) has
widespread applications. Existing systems typically utilize BERT for text
encoding. However, CSC requires the model to account for both phonetic and
graphemic information. To adapt BERT to the CSC task, we propose a token-level
self-distillation contrastive learning method. We employ BERT to encode both
the corrupted and corresponding correct sentence. Then, we use contrastive
learning loss to regularize corrupted tokens' hidden states to be closer to
counterparts in the correct sentence. On three CSC datasets, we confirmed our
method provides a significant improvement above baselines.
- Abstract(参考訳): ホモホンの曖昧さのため、中国語のスペルチェック(csc)は広く応用されている。
既存のシステムは、通常、テキストエンコーディングにBERTを使用する。
しかし、CSCは音声情報とグラフ情報の両方を考慮する必要がある。
CSCタスクにBERTを適用するために,トークンレベルの自己蒸留コントラスト学習手法を提案する。
不正な文と対応する正しい文の両方を bert でエンコードする。
そして、比較学習損失を用いて、不正なトークンの隠れ状態が正しい文のそれに近いように規則化する。
3つのCSCデータセットに対して,本手法がベースラインよりも大幅に改善できることを確認した。
関連論文リスト
- C-LLM: Learn to Check Chinese Spelling Errors Character by Character [61.53865964535705]
本稿では,C-LLMを提案する。C-LLMは,文字による誤り文字のチェックを学習する中国語のスペルチェック手法である。
C-LLMは既存の方法よりも平均10%改善する。
論文 参考訳(メタデータ) (2024-06-24T11:16:31Z) - Cross-modal Active Complementary Learning with Self-refining
Correspondence [54.61307946222386]
既存手法のロバスト性を改善するために,クロスモーダルなロバスト補完学習フレームワーク(CRCL)を提案する。
ACLは、誤った監視を行うリスクを減らすために、アクティブで補完的な学習損失を利用する。
SCCは、モーメント補正を備えた複数の自己精製プロセスを使用して、対応を補正するために受容場を拡大する。
論文 参考訳(メタデータ) (2023-10-26T15:15:11Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - Error-Robust Retrieval for Chinese Spelling Check [43.56073620728942]
Chinese Spelling Check (CSC)は、中国のコンテキストにおけるエラートークンの検出と修正を目的としている。
これまでの方法では、既存のデータセットを完全に活用できない場合がある。
そこで我々は,中国語スペルチェックのための誤り情報付きプラグ・アンド・プレイ検索手法を提案する。
論文 参考訳(メタデータ) (2022-11-15T01:55:34Z) - Improving Chinese Spelling Check by Character Pronunciation Prediction:
The Effects of Adaptivity and Granularity [76.20568599642799]
中国語のスペルチェック(英語: Chinese spelling check, CSC)は、中国語のテキスト中のスペルエラーを検出し修正する基本的なNLPタスクである。
本稿では,CSCを改善するために中国語発音予測(CPP)の補助的タスクを導入することを検討する。
本稿では,共有エンコーダの2つの並列デコーダ上に構築したSCOPEを提案する。
論文 参考訳(メタデータ) (2022-10-20T03:42:35Z) - CTC Alignments Improve Autoregressive Translation [145.90587287444976]
我々はCTCが共同のCTC/アテンションフレームワークに適用された場合、実際に翻訳に意味があることを論じる。
提案した共同CTC/アテンションモデルは6つのベンチマーク翻訳タスクにおいて純粋アテンションベースラインを上回った。
論文 参考訳(メタデータ) (2022-10-11T07:13:50Z) - Reducing Spelling Inconsistencies in Code-Switching ASR using
Contextualized CTC Loss [5.707652271634435]
本研究では,スペル合成の促進を目的とした文脈接続性時間分類(CCTC)の損失を提案する。
CCTC損失は、モデルの推定経路からコンテキスト基底真理を得るため、フレームレベルのアライメントを必要としない。
CSと単言語コーパスの両方において,通常のCTC損失をトレーニングしたモデルと比較して,ASR性能は一貫して改善した。
論文 参考訳(メタデータ) (2020-05-16T09:36:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。