論文の概要: Pronunciation-aware unique character encoding for RNN Transducer-based
Mandarin speech recognition
- arxiv url: http://arxiv.org/abs/2207.14578v1
- Date: Fri, 29 Jul 2022 09:49:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-01 13:12:58.320176
- Title: Pronunciation-aware unique character encoding for RNN Transducer-based
Mandarin speech recognition
- Title(参考訳): RNNトランスデューサを用いたマンダリン音声認識のための固有文字符号化
- Authors: Peng Shen, Xugang Lu, Hisashi Kawai
- Abstract要約: 本稿では,E2E RNN-T ベースの Mandarin ASR システム構築に新しい発音認識文字符号化法を提案する。
提案する符号化法は発音ベース音節と文字索引(CI)の組み合わせである。
- 参考スコア(独自算出の注目度): 38.60303603000269
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: For Mandarin end-to-end (E2E) automatic speech recognition (ASR) tasks,
compared to character-based modeling units, pronunciation-based modeling units
could improve the sharing of modeling units in model training but meet
homophone problems. In this study, we propose to use a novel
pronunciation-aware unique character encoding for building E2E RNN-T-based
Mandarin ASR systems. The proposed encoding is a combination of
pronunciation-base syllable and character index (CI). By introducing the CI,
the RNN-T model can overcome the homophone problem while utilizing the
pronunciation information for extracting modeling units. With the proposed
encoding, the model outputs can be converted into the final recognition result
through a one-to-one mapping. We conducted experiments on Aishell and MagicData
datasets, and the experimental results showed the effectiveness of the proposed
method.
- Abstract(参考訳): Mandarin end-to-end (E2E) の自動音声認識(ASR)タスクでは、文字ベースのモデリングユニットと比較して、発音ベースのモデリングユニットはモデルトレーニングにおけるモデリングユニットの共有を改善するが、ホモフォンの問題を満たす。
本研究では,E2E RNN-TをベースとしたマンダリンASRシステム構築に,新しい発音対応文字符号化法を提案する。
提案符号化は発音ベース音節と文字インデックス(CI)の組み合わせである。
CIを導入することで、RNN-Tモデルは、モデリングユニットを抽出するための発音情報を利用して、ホモフォン問題を克服することができる。
提案した符号化により、モデル出力を1対1のマッピングにより最終認識結果に変換することができる。
AishellとMagicDataのデータセットについて実験を行い,提案手法の有効性を示す実験結果を得た。
関連論文リスト
- Syllable based DNN-HMM Cantonese Speech to Text System [3.976127530758402]
本稿では,音節ベース音響モデルを用いたカントーン音声テキスト(STT)システムを構築する。
OnCに基づく音節音響モデリングは、単語誤り率(WER)が9.66%、リアルタイム係数(RTF)が1.38812で最高の性能を達成する。
論文 参考訳(メタデータ) (2024-02-13T20:54:24Z) - SelfVC: Voice Conversion With Iterative Refinement using Self Transformations [42.97689861071184]
SelfVCは、自己合成例で音声変換モデルを改善するためのトレーニング戦略である。
本研究では,音声信号とSSL表現から韻律情報を導出する手法を開発し,合成モデルにおける予測サブモジュールの訓練を行う。
我々のフレームワークはテキストを使わずに訓練され、音声の自然性、話者の類似性、合成音声のインテリジェンス性を評価するため、ゼロショット音声変換を実現する。
論文 参考訳(メタデータ) (2023-10-14T19:51:17Z) - Unified model for code-switching speech recognition and language
identification based on a concatenated tokenizer [17.700515986659063]
Code-Switching (CS) Multilingual Automatic Speech Recognition (ASR) モデルは会話中に2つ以上の交互言語を含む音声を転写することができる。
本稿では,純粋にモノリンガルなデータソースからASRデータセットをコードスイッチングする新しい手法を提案する。
新たな Concatenated Tokenizer により、ASR モデルは既存のモノリンガルトークンを再利用しながら、出力されたテキストトークンごとに言語IDを生成することができる。
論文 参考訳(メタデータ) (2023-06-14T21:24:11Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - Multi-Level Modeling Units for End-to-End Mandarin Speech Recognition [9.930655347717932]
マンダリンのシナリオでは、漢字は意味を表すが、発音に直接関係しない。
マンダリン音声認識のための多レベル情報を統合する多レベルモデリングユニットを含む新しい手法を提案する。
論文 参考訳(メタデータ) (2022-05-24T11:43:54Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Speech recognition for air traffic control via feature learning and
end-to-end training [8.755785876395363]
本稿では,特徴学習に基づく新しい自動音声認識(ASR)システムと,航空交通制御(ATC)システムのためのエンドツーエンドトレーニング手順を提案する。
提案モデルでは、特徴学習ブロック、リカレントニューラルネットワーク(RNN)、コネクショニストの時間的分類損失を統合する。
生波形から表現を学習する能力により、提案したモデルは完全なエンドツーエンドで最適化できる。
論文 参考訳(メタデータ) (2021-11-04T06:38:21Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。