論文の概要: Disentangled Phonetic Representation for Chinese Spelling Correction
- arxiv url: http://arxiv.org/abs/2305.14783v1
- Date: Wed, 24 May 2023 06:39:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 19:00:40.405343
- Title: Disentangled Phonetic Representation for Chinese Spelling Correction
- Title(参考訳): 中国語綴り訂正のための異節音声表現
- Authors: Zihong Liang, Xiaojun Quan, Qifan Wang
- Abstract要約: 中国語のspelling Correctionは、中国語のテキスト中の誤字を検出し、訂正することを目的としている。
このタスクに音声情報を導入する試みは行われてきたが、通常は音声表現と文字表現を融合させる。
そこで本稿では,テキスト情報と音声情報の直接的相互作用を可能にするために,2種類の機能を切り離すことを提案する。
- 参考スコア(独自算出の注目度): 25.674770525359236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chinese Spelling Correction (CSC) aims to detect and correct erroneous
characters in Chinese texts. Although efforts have been made to introduce
phonetic information (Hanyu Pinyin) in this task, they typically merge phonetic
representations with character representations, which tends to weaken the
representation effect of normal texts. In this work, we propose to disentangle
the two types of features to allow for direct interaction between textual and
phonetic information. To learn useful phonetic representations, we introduce a
pinyin-to-character objective to ask the model to predict the correct
characters based solely on phonetic information, where a separation mask is
imposed to disable attention from phonetic input to text. To avoid overfitting
the phonetics, we further design a self-distillation module to ensure that
semantic information plays a major role in the prediction. Extensive
experiments on three CSC benchmarks demonstrate the superiority of our method
in using phonetic information.
- Abstract(参考訳): Chinese Spelling Correction (CSC)は、中国語のテキスト中の誤字を検出し、訂正することを目的としている。
この課題では、音声情報(hanyu pinyin)の導入が試みられているが、通常、音声表現と文字表現を融合させ、通常のテキストの表現効果を弱める傾向がある。
本研究では,テキスト情報と音声情報の直接的相互作用を可能にするために,2種類の特徴を解消することを提案する。
そこで本研究では,音声入力からテキストへの注意を損なうために分離マスクが課される音韻情報のみに基づく正しい文字の予測をモデルに依頼するピニイン・トゥ・キャラクタの目的について紹介する。
音素の過度な適合を避けるため,予測において意味情報が重要な役割を果たすことを保証する自己蒸留モジュールを設計する。
3つのCSCベンチマークの大規模な実験は、音声情報を用いた手法の優位性を実証している。
関連論文リスト
- Grammar Induction from Visual, Speech and Text [91.98797120799227]
本研究は、新しい視覚音声テキスト文法誘導タスク(textbfVAT-GI)を導入する。
言語文法がテキストを超えて存在するという事実に触発されて、テキストは文法帰納において支配的なモダリティであってはならないと論じる。
そこで本稿では,豊富なモーダル特化機能と補完機能を有効文法解析に活用した,ビジュアル・オーディオ・テキスト・インサイド・アウトサイド・オートエンコーダ(textbfVaTiora)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-01T02:24:18Z) - Large Language Model Should Understand Pinyin for Chinese ASR Error Correction [31.13523648668466]
我々は,中国のASR誤り訂正を改善するため,Pinyin-enhanced GECを提案する。
提案手法は, 合成誤差をトレーニングに用い, 推論時に最良仮説を用いる。
Aishell-1とCommon Voiceデータセットの実験は、我々のアプローチがテキストのみの入力でGECを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2024-09-20T06:50:56Z) - Identifying Speakers and Addressees of Quotations in Novels with Prompt Learning [5.691280935924612]
そこで本研究では,微調整事前学習モデルに基づく話者とアドレナ識別のための学習手法を提案する。
中国語と英語の両方のデータセットを用いた実験は,提案手法の有効性を示した。
論文 参考訳(メタデータ) (2024-08-18T12:19:18Z) - Orientation-Independent Chinese Text Recognition in Scene Images [61.34060587461462]
本研究は,テキスト画像のコンテンツと方向情報を切り離すことにより,向きに依存しない視覚特徴を抽出する試みである。
具体的には,不整合コンテンツと向き情報を用いて対応する文字イメージを復元する文字画像再構成ネットワーク(CIRN)を提案する。
論文 参考訳(メタデータ) (2023-09-03T05:30:21Z) - Improving Mandarin Prosodic Structure Prediction with Multi-level
Contextual Information [68.89000132126536]
本研究は,音声間言語情報を用いて韻律構造予測(PSP)の性能を向上させることを提案する。
提案手法は,韻律語(PW),韻律語(PPH),国際語句(IPH)の予測におけるF1スコアの向上を実現する。
論文 参考訳(メタデータ) (2023-08-31T09:19:15Z) - Enhancing Cross-lingual Transfer via Phonemic Transcription Integration [57.109031654219294]
PhoneXLは、音素転写を言語間移動のための追加のモダリティとして組み込んだフレームワークである。
本研究は, 音素転写が, 言語間移動を促進するために, 正書法以外の重要な情報を提供することを示すものである。
論文 参考訳(メタデータ) (2023-07-10T06:17:33Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Good Neighbors Are All You Need for Chinese Grapheme-to-Phoneme
Conversion [1.5020330976600735]
ほとんどの中国語のGrapheme-to-Phoneme(G2P)システムは、入力シーケンスをまず文字埋め込みに変換し、言語モデルを用いて言語情報を取得し、グローバルな文脈に基づいて音素を予測する3段階のフレームワークを使用している。
本稿では,言語モデルに強い帰納バイアスを与えるReinforcerを提案する。
論文 参考訳(メタデータ) (2023-03-14T09:15:51Z) - Text-Aware End-to-end Mispronunciation Detection and Diagnosis [17.286013739453796]
誤認識検出・診断(MDD)技術はコンピュータ支援発音訓練システム(CAPT)の鍵となる要素である
本稿では,関係のないテキスト情報を抑えつつ,関連する音声特徴をより重要視するゲーティング戦略を提案する。
論文 参考訳(メタデータ) (2022-06-15T04:08:10Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - Read, Listen, and See: Leveraging Multimodal Information Helps Chinese
Spell Checking [20.74049189959078]
本稿では,漢字のマルチモーダル情報を直接活用して,ReaLiSeという中国語スペルチェッカーを提案する。
ReaLiSeは、(1)入力文字のセマンティック、音声、グラフィック情報をキャプチャし、(2)これらのモダリティに情報を混ぜて正しい出力を予測することによって、CSCタスクをモデル化する。
SIGHANベンチマークの実験では、提案されたモデルは大きなマージンで強いベースラインを上回ります。
論文 参考訳(メタデータ) (2021-05-26T02:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。