論文の概要: CNMBert: A Model For Hanyu Pinyin Abbreviation to Character Conversion Task
- arxiv url: http://arxiv.org/abs/2411.11770v1
- Date: Mon, 18 Nov 2024 17:50:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:35:45.230587
- Title: CNMBert: A Model For Hanyu Pinyin Abbreviation to Character Conversion Task
- Title(参考訳): CNMBert: 文字変換タスクに対する半融ピニイン省略のモデル
- Authors: Zishuo Feng, Feng Cao,
- Abstract要約: 漢友ピニイン略語を漢字に変換するという課題は、中国語スペルリング・コレクション(CSC)の領域において重要な分岐点である。
本稿では,この問題に対する解決策として,zh-CN Pinyin Multi-mask Bert Modelの略であるCNMBertを提案する。
CNMBertは数発のGPTモデルを超え、10,424サンプルのHanyu Pinyin短縮テストデータセットで59.63%のMRRを達成した。
- 参考スコア(独自算出の注目度): 1.6190746208019737
- License:
- Abstract: The task of converting Hanyu Pinyin abbreviations to Chinese characters represents a significant branch within the domain of Chinese Spelling Correction (CSC). This task is typically one of text-length alignment, however, due to the limited informational content in pinyin abbreviations, achieving accurate conversion is challenging. In this paper, we propose CNMBert which stands for zh-CN Pinyin Multi-mask Bert Model as a solution to this issue. CNMBert surpasses few-shot GPT models, achieving a 59.63% MRR on a 10,424-sample Hanyu Pinyin abbreviation test dataset.
- Abstract(参考訳): 漢友ピニインの略語を漢字に変換する作業は、中国語スペルリング・コレクション(CSC)の領域において重要な分岐点である。
このタスクは典型的にはテキスト長のアライメントの1つであるが、ピンの略語での情報内容が限られているため、正確な変換が困難である。
本稿では,この問題に対する解決策として,zh-CN Pinyin Multi-mask Bert Modelの略であるCNMBertを提案する。
CNMBertは数発のGPTモデルを超え、10,424サンプルのHanyu Pinyin短縮テストデータセットで59.63%のMRRを達成した。
関連論文リスト
- Large Language Model Should Understand Pinyin for Chinese ASR Error Correction [31.13523648668466]
我々は,中国のASR誤り訂正を改善するため,Pinyin-enhanced GECを提案する。
提案手法は, 合成誤差をトレーニングに用い, 推論時に最良仮説を用いる。
Aishell-1とCommon Voiceデータセットの実験は、我々のアプローチがテキストのみの入力でGECを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2024-09-20T06:50:56Z) - Do Vision-Language Models Understand Compound Nouns? [50.00532752250206]
CLIPのようなオープン語彙の視覚言語モデル(VLM)は、対照的な損失を用いて訓練され、テキストから画像への検索のための有望な新しいパラダイムとして登場した。
我々は400個のユニークなCNを持つ新しいベンチマークであるCompunをキュレートし、CNの解釈におけるVLMの有効性を評価する。
テキストプロンプトのための手書きテンプレートを超えて、CLIPのようなモデルで広く使われている別のフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-30T16:54:45Z) - Exploring the Usage of Chinese Pinyin in Pretraining [28.875174965608554]
ピニインは、ASR導入エラーに対するエラー訂正や耐故障性など、多くのシナリオにおいて不可欠である。
そこで本研究では,PmBERTと呼ばれる事前学習モデルにPinyinを使用する方法について検討し,新しい事前学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-08T01:26:44Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - Character, Word, or Both? Revisiting the Segmentation Granularity for
Chinese Pre-trained Language Models [42.75756994523378]
文字と単語の両方を考慮した混合粒度中国語 BERT (MigBERT) を提案する。
提案するMigBERTだけでなく,既存のPLMを評価するために,中国における様々なNLPタスクについて広範な実験を行った。
MigBERTは、これらすべてのタスクで新しいSOTAパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-20T06:20:03Z) - PERT: A New Solution to Pinyin to Character Conversion Task [26.185506980259536]
Pinyin to Character conversion は、アジア言語向けの商用入力ソフトウェアにおける Input Method Engine (IME) の重要なタスクである。
PERTはTransformersの双方向Pinyin表現の略である。
PERTはベースラインよりもパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2022-05-24T03:08:27Z) - "Is Whole Word Masking Always Better for Chinese BERT?": Probing on
Chinese Grammatical Error Correction [58.40808660657153]
我々は,中国語のBERTにおいて,単語マスキング(WWM)が文脈理解能力の向上につながるかどうかを検討する。
我々は10,448文で19,075トークンのラベルを含むデータセットを構築した。
標準文字レベルマスキング(CLM)、WWM、CLMとWWMを組み合わせた3つの中国のBERTモデルを訓練する。
論文 参考訳(メタデータ) (2022-03-01T08:24:56Z) - Exploring and Adapting Chinese GPT to Pinyin Input Method [48.15790080309427]
我々は,中国GPTをピンイン入力に活用する最初の探索を行っている。
凍結したGPTは、完璧なピニイン上で最先端のパフォーマンスを達成する。
しかし、入力に短縮ピンインが含まれていると、性能が劇的に低下する。
論文 参考訳(メタデータ) (2022-03-01T06:05:07Z) - Read, Listen, and See: Leveraging Multimodal Information Helps Chinese
Spell Checking [20.74049189959078]
本稿では,漢字のマルチモーダル情報を直接活用して,ReaLiSeという中国語スペルチェッカーを提案する。
ReaLiSeは、(1)入力文字のセマンティック、音声、グラフィック情報をキャプチャし、(2)これらのモダリティに情報を混ぜて正しい出力を予測することによって、CSCタスクをモデル化する。
SIGHANベンチマークの実験では、提案されたモデルは大きなマージンで強いベースラインを上回ります。
論文 参考訳(メタデータ) (2021-05-26T02:38:11Z) - 2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。
提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文 参考訳(メタデータ) (2020-05-07T10:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。