論文の概要: Cascade RNN-Transducer: Syllable Based Streaming On-device Mandarin
Speech Recognition with a Syllable-to-Character Converter
- arxiv url: http://arxiv.org/abs/2011.08469v1
- Date: Tue, 17 Nov 2020 06:42:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 17:23:49.477092
- Title: Cascade RNN-Transducer: Syllable Based Streaming On-device Mandarin
Speech Recognition with a Syllable-to-Character Converter
- Title(参考訳): cascade rnn-transducer: syllable-to-characterコンバータを用いた音節ベースのon-device mandarin音声認識
- Authors: Xiong Wang, Zhuoyuan Yao, Xian Shi, Lei Xie
- Abstract要約: 本稿では,RNN-Tの言語モデリング能力を向上させるために,新しいカスケードRNN-T手法を提案する。
いくつかの重要なトリックを導入することで、カスケードRNN-Tアプローチは、いくつかのマンダリンテストセットにおいて、文字ベースのRNN-Tを大きなマージンで上回る。
- 参考スコア(独自算出の注目度): 10.262490936452688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end models are favored in automatic speech recognition (ASR) because
of its simplified system structure and superior performance. Among these
models, recurrent neural network transducer (RNN-T) has achieved significant
progress in streaming on-device speech recognition because of its high-accuracy
and low-latency. RNN-T adopts a prediction network to enhance language
information, but its language modeling ability is limited because it still
needs paired speech-text data to train. Further strengthening the language
modeling ability through extra text data, such as shallow fusion with an
external language model, only brings a small performance gain. In view of the
fact that Mandarin Chinese is a character-based language and each character is
pronounced as a tonal syllable, this paper proposes a novel cascade RNN-T
approach to improve the language modeling ability of RNN-T. Our approach
firstly uses an RNN-T to transform acoustic feature into syllable sequence, and
then converts the syllable sequence into character sequence through an
RNN-T-based syllable-to-character converter. Thus a rich text repository can be
easily used to strengthen the language model ability. By introducing several
important tricks, the cascade RNN-T approach surpasses the character-based
RNN-T by a large margin on several Mandarin test sets, with much higher
recognition quality and similar latency.
- Abstract(参考訳): エンド・ツー・エンドのモデルは、システム構造がシンプルで性能が優れているため、自動音声認識(ASR)において好まれる。
これらのモデルのうち、リカレントニューラルネットワークトランスデューサ(rnn-t)は、高い精度と低遅延のため、デバイス上の音声認識のストリーミングにおいて大きな進歩を遂げている。
rnn-tは言語情報を強化するために予測ネットワークを採用しているが、その言語モデリング能力には制限がある。
外部言語モデルとの浅い融合など、余分なテキストデータを通じて言語モデリング能力をさらに強化することで、パフォーマンスの向上は小さくなる。
本稿では,中国語が文字ベース言語であり,各文字が音節として発音されるという事実を踏まえ,RNN-Tの言語モデリング能力を向上させるために,新しいカスケードRNN-Tアプローチを提案する。
提案手法はまずRNN-Tを用いて音響特徴を音節列に変換し,その音節列をRNN-Tベースの音節-文字変換器を通じて文字列に変換する。
したがって、リッチテキストレポジトリは、言語モデル能力を強化するために簡単に使用できる。
いくつかの重要なトリックを導入することで、カスケードRNN-Tアプローチは、より高い認識品質と同様のレイテンシを持つ、いくつかのマンダリンテストセットに対する大きなマージンで文字ベースのRNN-Tを超える。
関連論文リスト
- Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。
代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Speech recognition for air traffic control via feature learning and
end-to-end training [8.755785876395363]
本稿では,特徴学習に基づく新しい自動音声認識(ASR)システムと,航空交通制御(ATC)システムのためのエンドツーエンドトレーニング手順を提案する。
提案モデルでは、特徴学習ブロック、リカレントニューラルネットワーク(RNN)、コネクショニストの時間的分類損失を統合する。
生波形から表現を学習する能力により、提案したモデルは完全なエンドツーエンドで最適化できる。
論文 参考訳(メタデータ) (2021-11-04T06:38:21Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - Investigation of learning abilities on linguistic features in
sequence-to-sequence text-to-speech synthesis [48.151894340550385]
ニューラルシークエンス・ツー・シークエンス・テキスト・トゥ・音声合成(TTS)は、テキストや音素のような単純な言語的特徴から直接高品質な音声を生成することができる。
ニューラルシークエンス・ツー・シークエンス TTS が日本語と英語でどのように機能するかを考察する。
論文 参考訳(メタデータ) (2020-05-20T23:26:14Z) - Exploring Pre-training with Alignments for RNN Transducer based
End-to-End Speech Recognition [39.497407288772386]
リカレントニューラルネットワークトランスデューサ(RNN-T)アーキテクチャは、エンドツーエンドの自動音声認識研究において、新たなトレンドとなっている。
本研究では、外部アライメントを活用してRNN-Tモデルをシードする。
エンコーダ事前学習(encoder pre-training)と全ネットワーク事前学習( whole-network pre-training)と呼ばれる2つの異なる事前学習ソリューションが検討されている。
論文 参考訳(メタデータ) (2020-05-01T19:00:57Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。