論文の概要: Dual-Decoder Transformer For end-to-end Mandarin Chinese Speech
Recognition with Pinyin and Character
- arxiv url: http://arxiv.org/abs/2201.10792v1
- Date: Wed, 26 Jan 2022 07:59:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-27 19:45:01.515015
- Title: Dual-Decoder Transformer For end-to-end Mandarin Chinese Speech
Recognition with Pinyin and Character
- Title(参考訳): ピニインと文字を用いたエンドツーエンド中国語音声認識用デュアルデコーダトランス
- Authors: Zhao Yang, Wei Xi, Rui Wang, Rui Jiang and Jizhong Zhao
- Abstract要約: ピニインと文字・綴り体系としての性格はそれぞれ、中国語における相互の昇進である。
そこで本研究では,2次元デコーダ変換器を用いた新しい中国語ASRモデルを提案する。
AISHELL-1データセットのテストセットの結果は、言語モデルを持たない音声-ピニイン-文字-相互作用(S PCI)モデルがテストセット上で9.85%の文字誤り率(CER)を達成することを示している。
- 参考スコア(独自算出の注目度): 15.999657143705045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end automatic speech recognition (ASR) has achieved promising results.
However, most existing end-to-end ASR methods neglect the use of specific
language characteristics. For Mandarin Chinese ASR tasks, pinyin and character
as writing and spelling systems respectively are mutual promotion in the
Mandarin Chinese language. Based on the above intuition, we investigate types
of related models that are suitable but not for joint pinyin-character ASR and
propose a novel Mandarin Chinese ASR model with dual-decoder Transformer
according to the characteristics of the pinyin transcripts and character
transcripts. Specifically, the joint pinyin-character layer-wise linear
interactive (LWLI) module and phonetic posteriorgrams adapter (PPGA) are
proposed to achieve inter-layer multi-level interaction by adaptively fusing
pinyin and character information. Furthermore, a two-stage training strategy is
proposed to make training more stable and faster convergence. The results on
the test sets of AISHELL-1 dataset show that the proposed
Speech-Pinyin-Character-Interaction (SPCI) model without a language model
achieves 9.85% character error rate (CER) on the test set, which is 17.71%
relative reduction compared to baseline models based on Transformer.
- Abstract(参考訳): エンドツーエンド自動音声認識(ASR)は有望な結果を得た。
しかし、既存のasrメソッドの多くは、特定の言語特性の使用を無視している。
中国語のasrタスクでは、pinyin と character as writing and spelling system はそれぞれ、中国語での相互昇進である。
以上の直感に基づいて,共同ピニインキャラクタASRに向いていない関連モデルの種類を調査し,ピニイン文字と文字の書き起こしの特徴に応じて,二重デコーダトランスを用いた新しい中国語ASRモデルを提案する。
具体的には,Pinyin-character層ワイド線形対話(LWLI)モジュールとPPGAを併用し,Pinyinと文字情報を適応的に融合させることで,多層間相互作用を実現する。
さらに、トレーニングをより安定し、より早く収束させるための2段階のトレーニング戦略が提案されている。
AISHELL-1データセットのテストセットでは、言語モデルを持たない音声-ピニイン-文字-相互作用(SPCI)モデルが、試験セット上で9.85%の文字誤り率(CER)を達成した。
関連論文リスト
- Large Language Model Should Understand Pinyin for Chinese ASR Error Correction [31.13523648668466]
我々は,中国のASR誤り訂正を改善するため,Pinyin-enhanced GECを提案する。
提案手法は, 合成誤差をトレーニングに用い, 推論時に最良仮説を用いる。
Aishell-1とCommon Voiceデータセットの実験は、我々のアプローチがテキストのみの入力でGECを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2024-09-20T06:50:56Z) - Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through
Image-IDS Aligning [61.34060587461462]
中国語テキスト認識(CTR)のための2段階フレームワークを提案する。
印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。
この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。
学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
論文 参考訳(メタデータ) (2023-09-03T05:33:16Z) - Unified model for code-switching speech recognition and language
identification based on a concatenated tokenizer [17.700515986659063]
Code-Switching (CS) Multilingual Automatic Speech Recognition (ASR) モデルは会話中に2つ以上の交互言語を含む音声を転写することができる。
本稿では,純粋にモノリンガルなデータソースからASRデータセットをコードスイッチングする新しい手法を提案する。
新たな Concatenated Tokenizer により、ASR モデルは既存のモノリンガルトークンを再利用しながら、出力されたテキストトークンごとに言語IDを生成することができる。
論文 参考訳(メタデータ) (2023-06-14T21:24:11Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - READIN: A Chinese Multi-Task Benchmark with Realistic and Diverse Input
Noises [87.70001456418504]
我々は、Realistic and Diverse Input Noisesを用いた中国のマルチタスクベンチマークREADINを構築した。
READINには4つの多様なタスクとアノテータが含まれており、Pinyin入力と音声入力という2つの一般的な中国語入力方式で元のテストデータを再入力するよう要求する。
我々は、強化された事前訓練された言語モデルと、堅牢なトレーニング手法を用いて実験を行い、これらのモデルがREADINに顕著な性能低下を被ることがしばしば見いだされた。
論文 参考訳(メタデータ) (2023-02-14T20:14:39Z) - Cross-Modal Mutual Learning for Cued Speech Recognition [10.225972737967249]
マルチモーダルインタラクションを促進するためのトランスフォーマーに基づく相互学習フレームワークを提案する。
我々のモデルは、モダリティ固有の異なるモダリティの情報に、モダリティ不変のコードブックを通らせるよう強制する。
中国語のための大規模多話者CSデータセットを新たに構築する。
論文 参考訳(メタデータ) (2022-12-02T10:45:33Z) - Multi-Level Modeling Units for End-to-End Mandarin Speech Recognition [9.930655347717932]
マンダリンのシナリオでは、漢字は意味を表すが、発音に直接関係しない。
マンダリン音声認識のための多レベル情報を統合する多レベルモデリングユニットを含む新しい手法を提案する。
論文 参考訳(メタデータ) (2022-05-24T11:43:54Z) - ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin
Information [32.70080326854314]
我々は,漢字のグリフとピニイン情報を事前学習に組み込んだ ChineseBERT を提案する。
提案した ChineseBERT モデルは,トレーニングステップの少ないベースラインモデルよりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2021-06-30T13:06:00Z) - How Phonotactics Affect Multilingual and Zero-shot ASR Performance [74.70048598292583]
Transformer encoder-decoderモデルは、トレーニング中に提示された言語のIPA転写において、多言語データをうまく活用することが示されている。
我々は,エンコーダデコーダをAMとLMを分離したハイブリッドASRシステムに置き換える。
交叉音韻律のモデル化による利得は限定的であり,強すぎるモデルがゼロショット転送を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-22T23:07:24Z) - 2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。
提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文 参考訳(メタデータ) (2020-05-07T10:53:05Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。