論文の概要: Decoupling recognition and transcription in Mandarin ASR
- arxiv url: http://arxiv.org/abs/2108.01129v1
- Date: Mon, 2 Aug 2021 19:09:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-04 22:15:50.775611
- Title: Decoupling recognition and transcription in Mandarin ASR
- Title(参考訳): マンダリンASRにおける脱カップリング認識と転写
- Authors: Jiahong Yuan, Xingyu Cai, Dongji Gao, Renjie Zheng, Liang Huang,
Kenneth Church
- Abstract要約: 本研究では,(1)音声 ->Pinyinと(2)Pinyin ->Hanziの2つのサブタスクにハンジを分解することを提案する。
オーディオをファクタする -> この方法でHanziタスクは、Aishell-1コーパス上で3.9%のCER(文字エラー率)を達成する。
- 参考スコア(独自算出の注目度): 21.36547395115413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Much of the recent literature on automatic speech recognition (ASR) is taking
an end-to-end approach. Unlike English where the writing system is closely
related to sound, Chinese characters (Hanzi) represent meaning, not sound. We
propose factoring audio -> Hanzi into two sub-tasks: (1) audio -> Pinyin and
(2) Pinyin -> Hanzi, where Pinyin is a system of phonetic transcription of
standard Chinese. Factoring the audio -> Hanzi task in this way achieves 3.9%
CER (character error rate) on the Aishell-1 corpus, the best result reported on
this dataset so far.
- Abstract(参考訳): 近年の音声認識(ASR)に関する文献の多くは、エンドツーエンドのアプローチを採っている。
文字体系が音と密接に関連している英語とは異なり、漢字(ハンジー)は音ではなく意味を表す。
本研究では,(1)音声 ->Pinyinと(2)Pinyin ->Hanziの2つのサブタスクにハンジを分解することを提案する。
オーディオをファクタする -> この方法でHanziタスクは、Aishell-1コーパス上で3.9%のCER(文字エラー率)を達成する。
関連論文リスト
- Large Language Model Should Understand Pinyin for Chinese ASR Error Correction [31.13523648668466]
我々は,中国のASR誤り訂正を改善するため,Pinyin-enhanced GECを提案する。
提案手法は, 合成誤差をトレーニングに用い, 推論時に最良仮説を用いる。
Aishell-1とCommon Voiceデータセットの実験は、我々のアプローチがテキストのみの入力でGECを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2024-09-20T06:50:56Z) - Enhancing Cross-lingual Transfer via Phonemic Transcription Integration [57.109031654219294]
PhoneXLは、音素転写を言語間移動のための追加のモダリティとして組み込んだフレームワークである。
本研究は, 音素転写が, 言語間移動を促進するために, 正書法以外の重要な情報を提供することを示すものである。
論文 参考訳(メタデータ) (2023-07-10T06:17:33Z) - Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - Disentangled Phonetic Representation for Chinese Spelling Correction [25.674770525359236]
中国語のspelling Correctionは、中国語のテキスト中の誤字を検出し、訂正することを目的としている。
このタスクに音声情報を導入する試みは行われてきたが、通常は音声表現と文字表現を融合させる。
そこで本稿では,テキスト情報と音声情報の直接的相互作用を可能にするために,2種類の機能を切り離すことを提案する。
論文 参考訳(メタデータ) (2023-05-24T06:39:12Z) - READIN: A Chinese Multi-Task Benchmark with Realistic and Diverse Input
Noises [87.70001456418504]
我々は、Realistic and Diverse Input Noisesを用いた中国のマルチタスクベンチマークREADINを構築した。
READINには4つの多様なタスクとアノテータが含まれており、Pinyin入力と音声入力という2つの一般的な中国語入力方式で元のテストデータを再入力するよう要求する。
我々は、強化された事前訓練された言語モデルと、堅牢なトレーニング手法を用いて実験を行い、これらのモデルがREADINに顕著な性能低下を被ることがしばしば見いだされた。
論文 参考訳(メタデータ) (2023-02-14T20:14:39Z) - Exploring and Adapting Chinese GPT to Pinyin Input Method [48.15790080309427]
我々は,中国GPTをピンイン入力に活用する最初の探索を行っている。
凍結したGPTは、完璧なピニイン上で最先端のパフォーマンスを達成する。
しかし、入力に短縮ピンインが含まれていると、性能が劇的に低下する。
論文 参考訳(メタデータ) (2022-03-01T06:05:07Z) - Dual-Decoder Transformer For end-to-end Mandarin Chinese Speech
Recognition with Pinyin and Character [15.999657143705045]
ピニインと文字・綴り体系としての性格はそれぞれ、中国語における相互の昇進である。
そこで本研究では,2次元デコーダ変換器を用いた新しい中国語ASRモデルを提案する。
AISHELL-1データセットのテストセットの結果は、言語モデルを持たない音声-ピニイン-文字-相互作用(S PCI)モデルがテストセット上で9.85%の文字誤り率(CER)を達成することを示している。
論文 参考訳(メタデータ) (2022-01-26T07:59:03Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z) - Learning to Pronounce Chinese Without a Pronunciation Dictionary [10.622817647136667]
マンダリンで漢文を発音するプログラムを,発音辞書を使わずに実演する。
漢字と中国語のピン音の非パラレルストリームから、文字と発音の多対多のマッピングを確立する。
トークンレベルの文字と音節の精度は89%であり、前処理の22%の精度を大きく上回っている。
論文 参考訳(メタデータ) (2020-10-09T18:03:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。