論文の概要: DISC: Plug-and-Play Decoding Intervention with Similarity of Characters for Chinese Spelling Check
- arxiv url: http://arxiv.org/abs/2412.12863v1
- Date: Tue, 17 Dec 2024 12:44:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 14:01:44.829264
- Title: DISC: Plug-and-Play Decoding Intervention with Similarity of Characters for Chinese Spelling Check
- Title(参考訳): DISC:中国語スペルチェックのための文字の類似性を備えたプラグアンドプレイデコード
- Authors: Ziheng Qiao, Houquan Zhou, Yumeng Liu, Zhenghua Li, Min Zhang, Bo Zhang, Chen Li, Ji Zhang, Fei Huang,
- Abstract要約: 中国語スペルチェック(CSC)モデルのための軽量なプラグアンドプレイDECモジュールを提案する。
DISCは文字間の音声的類似度とグリフ的類似度を測定し、推論フェーズのみにこの類似度情報を組み込む。
3つのCSCベンチマーク実験により,提案手法はモデル性能を著しく向上し,現在の最先端モデルに近づき,さらに超えることを示した。
- 参考スコア(独自算出の注目度): 37.44133266050293
- License:
- Abstract: One key characteristic of the Chinese spelling check (CSC) task is that incorrect characters are usually similar to the correct ones in either phonetics or glyph. To accommodate this, previous works usually leverage confusion sets, which suffer from two problems, i.e., difficulty in determining which character pairs to include and lack of probabilities to distinguish items in the set. In this paper, we propose a light-weight plug-and-play DISC (i.e., decoding intervention with similarity of characters) module for CSC models.DISC measures phonetic and glyph similarities between characters and incorporates this similarity information only during the inference phase. This method can be easily integrated into various existing CSC models, such as ReaLiSe, SCOPE, and ReLM, without additional training costs. Experiments on three CSC benchmarks demonstrate that our proposed method significantly improves model performance, approaching and even surpassing the current state-of-the-art models.
- Abstract(参考訳): 中国語スペルチェック(CSC)タスクの重要な特徴の1つは、誤字は通常、音声学またはグリフにおける正しい文字と似ていることである。
これに対応するために、以前の研究は通常、混乱集合を利用するが、これは2つの問題、すなわち、どの文字対を含めるべきかを決定するのが難しいことと、集合内のアイテムを区別する確率の欠如である。
本稿では,CSCモデルのための軽量なプラグ・アンド・プレイDICモジュールを提案する。DISCは文字間の音声的・グリフ的類似性を計測し,この類似情報を推論フェーズにのみ組み込む。
この方法は、ReaLiSe、SCOPE、ReLMなどの既存のCSCモデルに、追加のトレーニングコストなしで簡単に統合できる。
3つのCSCベンチマーク実験により,提案手法はモデル性能を著しく向上し,現在の最先端モデルに近づき,さらに超えることを示した。
関連論文リスト
- EdaCSC: Two Easy Data Augmentation Methods for Chinese Spelling Correction [0.0]
Chinese Spelling Correction (CSC) は、音韻的・視覚的類似性に起因する中国語文の綴り誤りを検出し、訂正することを目的としている。
これらの制約に対処する2つのデータ拡張手法を提案する。
まず,長文を短い文に分割するか,複数文字の文の型を減らしてデータセットを増強する。
論文 参考訳(メタデータ) (2024-09-08T14:29:10Z) - Focus on the Whole Character: Discriminative Character Modeling for Scene Text Recognition [28.93482989766411]
文字の特徴を豊かにし,文字の識別性を向上する手法を提案する。
CACEは各ブロックに崩壊行列を導入し、各トークンの注意領域を明示的に案内する。
I2CLは、各文字カテゴリの長期記憶ユニットを学習することで、特徴の非ネイティブ性を改善する。
論文 参考訳(メタデータ) (2024-07-08T02:33:29Z) - C-LLM: Learn to Check Chinese Spelling Errors Character by Character [61.53865964535705]
本稿では,C-LLMを提案する。C-LLMは,文字による誤り文字のチェックを学習する中国語のスペルチェック手法である。
C-LLMは既存の方法よりも平均10%改善する。
論文 参考訳(メタデータ) (2024-06-24T11:16:31Z) - PRIME: Prioritizing Interpretability in Failure Mode Extraction [49.93565079216376]
訓練された画像分類モデルにおいて、故障モードに対する人間の理解可能な記述を提供することの課題について検討する。
本稿では,この問題における解釈可能性を重視した新しい手法を提案する。
本手法は,障害モードの同定に成功し,それに関連する高品質なテキスト記述を生成する。
論文 参考訳(メタデータ) (2023-09-29T22:00:12Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - CSCD-NS: a Chinese Spelling Check Dataset for Native Speakers [62.61866477815883]
CSCD-NSは中国初のネイティブ話者向けスペルチェックデータセットである。
CSCD-NSはスケールが10倍大きく、誤差分布が異なる。
本稿では,入力過程をシミュレーションする新しい手法を提案する。
論文 参考訳(メタデータ) (2022-11-16T09:25:42Z) - Contextual Similarity is More Valuable than Character Similarity:
Curriculum Learning for Chinese Spell Checking [26.93594761258908]
中国語のスペルチェック(CSC)タスクは、中国語のスペルエラーを検出し、修正することを目的としている。
文脈的類似性をよりよく活用するために,CSCタスクのためのシンプルで効果的なカリキュラム学習フレームワークを提案する。
設計したモデルに依存しないフレームワークの助けを借りて、既存のCSCモデルは、人間が漢字を学習するときに、容易から困難に訓練される。
論文 参考訳(メタデータ) (2022-07-17T03:12:27Z) - Exploration and Exploitation: Two Ways to Improve Chinese Spelling
Correction Models [51.744357472072416]
本稿では,モデルの弱点を継続的に識別し,より価値の高いトレーニングインスタンスを生成する手法を提案する。
実験結果から, 事前学習戦略と組み合わさって, 複数のCSCモデルの一般化とロバスト性を改善することができることがわかった。
論文 参考訳(メタデータ) (2021-05-31T09:17:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。