論文の概要: CNMBert: A Model for Hanyu Pinyin Abbreviation to Character Conversion Task
- arxiv url: http://arxiv.org/abs/2411.11770v3
- Date: Mon, 06 Jan 2025 10:52:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:04:42.712117
- Title: CNMBert: A Model for Hanyu Pinyin Abbreviation to Character Conversion Task
- Title(参考訳): CNMBert: 文字変換タスクに対する半融ピニイン省略のモデル
- Authors: Zishuo Feng, Feng Cao,
- Abstract要約: 本稿では,zh-CN Pinyin Multi-mask Bert Model の略である CNMBert を提案する。
CNMBert は GPT モデルと ChatGPT-4o を 61.53 MRR スコアと 51.86 の精度で 10,373 サンプルテストデータセットで上回っている。
- 参考スコア(独自算出の注目度): 1.6190746208019737
- License:
- Abstract: The task of converting hanyu pinyin abbreviations to Chinese characters is a significant branch within the domain of Chinese Spelling Correction (CSC). It plays an important role in many downstream applications like named entity recognition and sentiment analysis. This task is typically one of text-length alignment and seems easy to solve; however, due to the limited information content in pinyin abbreviations, achieving accurate conversion is challenging. In this paper, we treat this as a Fill-Mask task then propose CNMBert, which stands for zh-CN Pinyin Multi-mask Bert Model, as a solution to this issue. By introducing a multi-mask strategy and Mixture-of-Experts (MoE) layers, CNMBert outperforms fine-tuned GPT models and ChatGPT-4o with a 61.53 MRR score and 51.86 accuracy on a 10,373-sample test dataset.
- Abstract(参考訳): 漢風ピニインの略語を漢字に変換する作業は、中国語スペルリング・コレクション(CSC)の領域において重要な分野である。
エンティティ認識や感情分析など、多くのダウンストリームアプリケーションにおいて重要な役割を果たす。
このタスクは典型的にはテキスト長のアライメントの1つであり、解決が容易であるように思われるが、ピンの略語での情報内容が限られているため、正確な変換は困難である。
本稿では、これをFill-Maskタスクとして扱い、この問題の解決策として、zh-CN Pinyin Multi-mask Bert Modelの略であるCNMBertを提案する。
マルチマスク戦略とMixture-of-Experts (MoE) レイヤを導入することで、CNMBertは細調整されたGPTモデルとChatGPT-4oを61.53 MRRスコアと51.86の精度で10,373サンプルテストデータセットで上回っている。
関連論文リスト
- Multi-Modal Multi-Granularity Tokenizer for Chu Bamboo Slip Scripts [65.10991154918737]
本研究は、古代中国の春・秋・戦国時代(紀元前771-256年)に用いられた中竹の文字に焦点を当てたものである。
我々のトークンライザはまず文字検出を採用して文字境界の特定を行い、次に文字レベルとサブキャラクタレベルの両方で文字認識を行う。
学術コミュニティを支援するために,100K以上の注釈付き文字イメージスキャンを備えたCBSの最初の大規模データセットも収集した。
論文 参考訳(メタデータ) (2024-09-02T07:42:55Z) - C-LLM: Learn to Check Chinese Spelling Errors Character by Character [61.53865964535705]
本稿では,C-LLMを提案する。C-LLMは,文字による誤り文字のチェックを学習する中国語のスペルチェック手法である。
C-LLMは既存の方法よりも平均10%改善する。
論文 参考訳(メタデータ) (2024-06-24T11:16:31Z) - PERT: A New Solution to Pinyin to Character Conversion Task [26.185506980259536]
Pinyin to Character conversion は、アジア言語向けの商用入力ソフトウェアにおける Input Method Engine (IME) の重要なタスクである。
PERTはTransformersの双方向Pinyin表現の略である。
PERTはベースラインよりもパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2022-05-24T03:08:27Z) - "Is Whole Word Masking Always Better for Chinese BERT?": Probing on
Chinese Grammatical Error Correction [58.40808660657153]
我々は,中国語のBERTにおいて,単語マスキング(WWM)が文脈理解能力の向上につながるかどうかを検討する。
我々は10,448文で19,075トークンのラベルを含むデータセットを構築した。
標準文字レベルマスキング(CLM)、WWM、CLMとWWMを組み合わせた3つの中国のBERTモデルを訓練する。
論文 参考訳(メタデータ) (2022-03-01T08:24:56Z) - MFE-NER: Multi-feature Fusion Embedding for Chinese Named Entity Recognition [9.226556208419256]
グリフと音声の特徴を融合した軽量なMFE-NERを提案する。
グリフ領域では、漢字をFive-Strokeコンポーネントに分解し、構造的特徴を表現する。
本研究では,音韻領域において,漢字間の音韻類似性を記述できる改良された音韻システムを提案する。
論文 参考訳(メタデータ) (2021-09-16T11:16:43Z) - MECT: Multi-Metadata Embedding based Cross-Transformer for Chinese Named
Entity Recognition [21.190288516462704]
本稿では,中国語NERの性能向上を目的とした,MECT(Multi-metadata Embedding based Cross-Transformer)を提案する。
具体的には、2ストリームのトランスフォーマーにマルチメタメタを埋め込み、漢字の特徴とラジカルレベルの埋め込みを統合する。
漢字の構造的特徴により、MECTはNERのための漢字の意味情報をよりよく捉えることができる。
論文 参考訳(メタデータ) (2021-07-12T13:39:06Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - Read, Listen, and See: Leveraging Multimodal Information Helps Chinese
Spell Checking [20.74049189959078]
本稿では,漢字のマルチモーダル情報を直接活用して,ReaLiSeという中国語スペルチェッカーを提案する。
ReaLiSeは、(1)入力文字のセマンティック、音声、グラフィック情報をキャプチャし、(2)これらのモダリティに情報を混ぜて正しい出力を予測することによって、CSCタスクをモデル化する。
SIGHANベンチマークの実験では、提案されたモデルは大きなマージンで強いベースラインを上回ります。
論文 参考訳(メタデータ) (2021-05-26T02:38:11Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - 2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。
提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文 参考訳(メタデータ) (2020-05-07T10:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。