論文の概要: Large Language Model Should Understand Pinyin for Chinese ASR Error Correction
- arxiv url: http://arxiv.org/abs/2409.13262v1
- Date: Fri, 20 Sep 2024 06:50:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 07:51:11.417720
- Title: Large Language Model Should Understand Pinyin for Chinese ASR Error Correction
- Title(参考訳): 中国におけるASR誤り訂正のための大言語モデルはPinyinを理解すべきである
- Authors: Yuang Li, Xiaosong Qiao, Xiaofeng Zhao, Huan Zhao, Wei Tang, Min Zhang, Hao Yang,
- Abstract要約: 我々は,中国のASR誤り訂正を改善するため,Pinyin-enhanced GECを提案する。
提案手法は, 合成誤差をトレーニングに用い, 推論時に最良仮説を用いる。
Aishell-1とCommon Voiceデータセットの実験は、我々のアプローチがテキストのみの入力でGECを一貫して上回っていることを示している。
- 参考スコア(独自算出の注目度): 31.13523648668466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models can enhance automatic speech recognition systems through generative error correction. In this paper, we propose Pinyin-enhanced GEC, which leverages Pinyi, the phonetic representation of Mandarin Chinese, as supplementary information to improve Chinese ASR error correction. Our approach only utilizes synthetic errors for training and employs the one-best hypothesis during inference. Additionally, we introduce a multitask training approach involving conversion tasks between Pinyin and text to align their feature spaces. Experiments on the Aishell-1 and the Common Voice datasets demonstrate that our approach consistently outperforms GEC with text-only input. More importantly, we provide intuitive explanations for the effectiveness of PY-GEC and multitask training from two aspects: 1) increased attention weight on Pinyin features; and 2) aligned feature space between Pinyin and text hidden states.
- Abstract(参考訳): 大規模言語モデルは、生成誤り訂正によって自動音声認識システムを強化することができる。
本稿では,中国語の中国語の音声表現であるPinyiを利用して中国語のASR誤り訂正を改善するPinyin-enhanced GECを提案する。
提案手法は, 合成誤差をトレーニングに用い, 推論時に最良仮説を用いる。
さらに,Pinyinとテキスト間の変換タスクによる特徴空間の整合性を考慮したマルチタスク学習手法を提案する。
Aishell-1とCommon Voiceデータセットの実験は、我々のアプローチがテキストのみの入力でGECを一貫して上回っていることを示している。
より重要なことは、PY-GECの有効性とマルチタスクトレーニングの2つの側面から、直感的な説明を提供することである。
1)ピニイン特徴に対する注意重量の増加,及び
2)Pinyinとテキスト隠蔽状態の整列した特徴空間。
関連論文リスト
- Pinyin Regularization in Error Correction for Chinese Speech Recognition with Large Language Models [11.287933170894311]
724Kの仮説と書き起こしのペアを持つ中国語ASRの誤り訂正を目的とした,特殊なベンチマークデータセットを構築した。
本稿では,テキスト仮説から直接Pinyinを転写するプロンプトに対するPinyin正規化法を提案する。
論文 参考訳(メタデータ) (2024-07-02T03:16:47Z) - Exploring the Usage of Chinese Pinyin in Pretraining [28.875174965608554]
ピニインは、ASR導入エラーに対するエラー訂正や耐故障性など、多くのシナリオにおいて不可欠である。
そこで本研究では,PmBERTと呼ばれる事前学習モデルにPinyinを使用する方法について検討し,新しい事前学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-08T01:26:44Z) - Enhancing Cross-lingual Transfer via Phonemic Transcription Integration [57.109031654219294]
PhoneXLは、音素転写を言語間移動のための追加のモダリティとして組み込んだフレームワークである。
本研究は, 音素転写が, 言語間移動を促進するために, 正書法以外の重要な情報を提供することを示すものである。
論文 参考訳(メタデータ) (2023-07-10T06:17:33Z) - Disentangled Phonetic Representation for Chinese Spelling Correction [25.674770525359236]
中国語のspelling Correctionは、中国語のテキスト中の誤字を検出し、訂正することを目的としている。
このタスクに音声情報を導入する試みは行われてきたが、通常は音声表現と文字表現を融合させる。
そこで本稿では,テキスト情報と音声情報の直接的相互作用を可能にするために,2種類の機能を切り離すことを提案する。
論文 参考訳(メタデータ) (2023-05-24T06:39:12Z) - READIN: A Chinese Multi-Task Benchmark with Realistic and Diverse Input
Noises [87.70001456418504]
我々は、Realistic and Diverse Input Noisesを用いた中国のマルチタスクベンチマークREADINを構築した。
READINには4つの多様なタスクとアノテータが含まれており、Pinyin入力と音声入力という2つの一般的な中国語入力方式で元のテストデータを再入力するよう要求する。
我々は、強化された事前訓練された言語モデルと、堅牢なトレーニング手法を用いて実験を行い、これらのモデルがREADINに顕著な性能低下を被ることがしばしば見いだされた。
論文 参考訳(メタデータ) (2023-02-14T20:14:39Z) - Improving Chinese Spelling Check by Character Pronunciation Prediction:
The Effects of Adaptivity and Granularity [76.20568599642799]
中国語のスペルチェック(英語: Chinese spelling check, CSC)は、中国語のテキスト中のスペルエラーを検出し修正する基本的なNLPタスクである。
本稿では,CSCを改善するために中国語発音予測(CPP)の補助的タスクを導入することを検討する。
本稿では,共有エンコーダの2つの並列デコーダ上に構築したSCOPEを提案する。
論文 参考訳(メタデータ) (2022-10-20T03:42:35Z) - Exploring and Adapting Chinese GPT to Pinyin Input Method [48.15790080309427]
我々は,中国GPTをピンイン入力に活用する最初の探索を行っている。
凍結したGPTは、完璧なピニイン上で最先端のパフォーマンスを達成する。
しかし、入力に短縮ピンインが含まれていると、性能が劇的に低下する。
論文 参考訳(メタデータ) (2022-03-01T06:05:07Z) - Dual-Decoder Transformer For end-to-end Mandarin Chinese Speech
Recognition with Pinyin and Character [15.999657143705045]
ピニインと文字・綴り体系としての性格はそれぞれ、中国語における相互の昇進である。
そこで本研究では,2次元デコーダ変換器を用いた新しい中国語ASRモデルを提案する。
AISHELL-1データセットのテストセットの結果は、言語モデルを持たない音声-ピニイン-文字-相互作用(S PCI)モデルがテストセット上で9.85%の文字誤り率(CER)を達成することを示している。
論文 参考訳(メタデータ) (2022-01-26T07:59:03Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - Non-autoregressive Mandarin-English Code-switching Speech Recognition
with Pinyin Mask-CTC and Word Embedding Regularization [61.749126838659315]
マンダリン・イングリッシュ・コード・スイッチング (CS) は東アジアや東南アジアでよく使われている。
近年の非自己回帰(NAR)ASRモデルは、自己回帰(AR)モデルにおける左から右へのビームデコードの必要性を排除している。
エンコーダの出力目標をpinyinに変更してエンコーダトレーニングを高速化し,文脈情報学習のためのpinyin-to-mandarinデコーダを提案する。
論文 参考訳(メタデータ) (2021-04-06T03:01:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。