Fugu-MT 論文翻訳(概要): CNMBert: A Model For Hanyu Pinyin Abbreviation to Character Conversion Task

論文の概要: CNMBert: A Model For Hanyu Pinyin Abbreviation to Character Conversion Task

arxiv url: http://arxiv.org/abs/2411.11770v1
Date: Mon, 18 Nov 2024 17:50:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:48.811008
Title: CNMBert: A Model For Hanyu Pinyin Abbreviation to Character Conversion Task
Title（参考訳）: CNMBert: 文字変換タスクに対する半融ピニイン省略のモデル
Authors: Zishuo Feng, Feng Cao,
Abstract要約: 漢友ピニイン略語を漢字に変換するという課題は、中国語スペルリング・コレクション(CSC)の領域において重要な分岐点である。本稿では,この問題に対する解決策として,zh-CN Pinyin Multi-mask Bert Modelの略であるCNMBertを提案する。 CNMBertは数発のGPTモデルを超え、10,424サンプルのHanyu Pinyin短縮テストデータセットで59.63%のMRRを達成した。
参考スコア（独自算出の注目度）: 1.6190746208019737
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The task of converting Hanyu Pinyin abbreviations to Chinese characters represents a significant branch within the domain of Chinese Spelling Correction (CSC). This task is typically one of text-length alignment, however, due to the limited informational content in pinyin abbreviations, achieving accurate conversion is challenging. In this paper, we propose CNMBert which stands for zh-CN Pinyin Multi-mask Bert Model as a solution to this issue. CNMBert surpasses few-shot GPT models, achieving a 59.63% MRR on a 10,424-sample Hanyu Pinyin abbreviation test dataset.
Abstract（参考訳）: 漢友ピニインの略語を漢字に変換する作業は、中国語スペルリング・コレクション(CSC)の領域において重要な分岐点である。このタスクは典型的にはテキスト長のアライメントの1つであるが、ピンの略語での情報内容が限られているため、正確な変換が困難である。本稿では,この問題に対する解決策として,zh-CN Pinyin Multi-mask Bert Modelの略であるCNMBertを提案する。 CNMBertは数発のGPTモデルを超え、10,424サンプルのHanyu Pinyin短縮テストデータセットで59.63%のMRRを達成した。

関連論文リスト

Large Language Model Should Understand Pinyin for Chinese ASR Error Correction [31.13523648668466]
我々は,中国のASR誤り訂正を改善するため,Pinyin-enhanced GECを提案する。提案手法は, 合成誤差をトレーニングに用い, 推論時に最良仮説を用いる。 Aishell-1とCommon Voiceデータセットの実験は、我々のアプローチがテキストのみの入力でGECを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2024-09-20T06:50:56Z)
Multi-Modal Multi-Granularity Tokenizer for Chu Bamboo Slip Scripts [65.10991154918737]
本研究は、古代中国の春・秋・戦国時代(紀元前771-256年)に用いられた中竹の文字に焦点を当てたものである。我々のトークンライザはまず文字検出を採用して文字境界の特定を行い、次に文字レベルとサブキャラクタレベルの両方で文字認識を行う。学術コミュニティを支援するために,100K以上の注釈付き文字イメージスキャンを備えたCBSの最初の大規模データセットも収集した。
論文参考訳（メタデータ） (2024-09-02T07:42:55Z)
C-LLM: Learn to Check Chinese Spelling Errors Character by Character [61.53865964535705]
本稿では,C-LLMを提案する。C-LLMは,文字による誤り文字のチェックを学習する中国語のスペルチェック手法である。 C-LLMは既存の方法よりも平均10%改善する。
論文参考訳（メタデータ） (2024-06-24T11:16:31Z)
Do Vision-Language Models Understand Compound Nouns? [50.00532752250206]
CLIPのようなオープン語彙の視覚言語モデル(VLM)は、対照的な損失を用いて訓練され、テキストから画像への検索のための有望な新しいパラダイムとして登場した。我々は400個のユニークなCNを持つ新しいベンチマークであるCompunをキュレートし、CNの解釈におけるVLMの有効性を評価する。テキストプロンプトのための手書きテンプレートを超えて、CLIPのようなモデルで広く使われている別のフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-30T16:54:45Z)
Exploring the Usage of Chinese Pinyin in Pretraining [28.875174965608554]
ピニインは、ASR導入エラーに対するエラー訂正や耐故障性など、多くのシナリオにおいて不可欠である。そこで本研究では,PmBERTと呼ばれる事前学習モデルにPinyinを使用する方法について検討し,新しい事前学習手法を提案する。
論文参考訳（メタデータ） (2023-10-08T01:26:44Z)
Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文参考訳（メタデータ） (2023-08-17T06:04:28Z)
Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文参考訳（メタデータ） (2023-05-30T05:48:36Z)
Character, Word, or Both? Revisiting the Segmentation Granularity for Chinese Pre-trained Language Models [42.75756994523378]
文字と単語の両方を考慮した混合粒度中国語 BERT (MigBERT) を提案する。提案するMigBERTだけでなく,既存のPLMを評価するために,中国における様々なNLPタスクについて広範な実験を行った。 MigBERTは、これらすべてのタスクで新しいSOTAパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-03-20T06:20:03Z)
PERT: A New Solution to Pinyin to Character Conversion Task [26.185506980259536]
Pinyin to Character conversion は、アジア言語向けの商用入力ソフトウェアにおける Input Method Engine (IME) の重要なタスクである。 PERTはTransformersの双方向Pinyin表現の略である。 PERTはベースラインよりもパフォーマンスが大幅に向上する。
論文参考訳（メタデータ） (2022-05-24T03:08:27Z)
"Is Whole Word Masking Always Better for Chinese BERT?": Probing on Chinese Grammatical Error Correction [58.40808660657153]
我々は,中国語のBERTにおいて,単語マスキング(WWM)が文脈理解能力の向上につながるかどうかを検討する。我々は10,448文で19,075トークンのラベルを含むデータセットを構築した。標準文字レベルマスキング(CLM)、WWM、CLMとWWMを組み合わせた3つの中国のBERTモデルを訓練する。
論文参考訳（メタデータ） (2022-03-01T08:24:56Z)
Exploring and Adapting Chinese GPT to Pinyin Input Method [48.15790080309427]
我々は,中国GPTをピンイン入力に活用する最初の探索を行っている。凍結したGPTは、完璧なピニイン上で最先端のパフォーマンスを達成する。しかし、入力に短縮ピンインが含まれていると、性能が劇的に低下する。
論文参考訳（メタデータ） (2022-03-01T06:05:07Z)
MFE-NER: Multi-feature Fusion Embedding for Chinese Named Entity Recognition [9.226556208419256]
グリフと音声の特徴を融合した軽量なMFE-NERを提案する。グリフ領域では、漢字をFive-Strokeコンポーネントに分解し、構造的特徴を表現する。本研究では,音韻領域において,漢字間の音韻類似性を記述できる改良された音韻システムを提案する。
論文参考訳（メタデータ） (2021-09-16T11:16:43Z)
MECT: Multi-Metadata Embedding based Cross-Transformer for Chinese Named Entity Recognition [21.190288516462704]
本稿では,中国語NERの性能向上を目的とした,MECT(Multi-metadata Embedding based Cross-Transformer)を提案する。具体的には、2ストリームのトランスフォーマーにマルチメタメタを埋め込み、漢字の特徴とラジカルレベルの埋め込みを統合する。漢字の構造的特徴により、MECTはNERのための漢字の意味情報をよりよく捉えることができる。
論文参考訳（メタデータ） (2021-07-12T13:39:06Z)
SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。 SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文参考訳（メタデータ） (2021-06-01T11:20:02Z)
Read, Listen, and See: Leveraging Multimodal Information Helps Chinese Spell Checking [20.74049189959078]
本稿では,漢字のマルチモーダル情報を直接活用して,ReaLiSeという中国語スペルチェッカーを提案する。 ReaLiSeは、(1)入力文字のセマンティック、音声、グラフィック情報をキャプチャし、(2)これらのモダリティに情報を混ぜて正しい出力を予測することによって、CSCタスクをモデル化する。 SIGHANベンチマークの実験では、提案されたモデルは大きなマージンで強いベースラインを上回ります。
論文参考訳（メタデータ） (2021-05-26T02:38:11Z)
FILTER: An Enhanced Fusion Method for Cross-lingual Language Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文参考訳（メタデータ） (2020-09-10T22:42:15Z)
2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文参考訳（メタデータ） (2020-05-07T10:53:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。