論文の概要: Research on Modeling Units of Transformer Transducer for Mandarin Speech
Recognition
- arxiv url: http://arxiv.org/abs/2004.13522v1
- Date: Sun, 26 Apr 2020 05:12:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 13:07:57.953419
- Title: Research on Modeling Units of Transformer Transducer for Mandarin Speech
Recognition
- Title(参考訳): マンダリン音声認識のためのトランスデューサのモデリングユニットに関する研究
- Authors: Li Fu, Xiaoxiao Li, Libo Zi
- Abstract要約: 本稿では,自己注意変換器とRNNを組み合わせたトランスデューサを提案する。
8kHzと16kHzのサンプリングレートで約12,000時間のマンダリン音声実験を行った。
音節の初期/最終音節と漢字を用いたモデルと比較して平均14.4%と44.1%の単語誤り率(WER)が減少する。
- 参考スコア(独自算出の注目度): 13.04590477394637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modeling unit and model architecture are two key factors of Recurrent Neural
Network Transducer (RNN-T) in end-to-end speech recognition. To improve the
performance of RNN-T for Mandarin speech recognition task, a novel transformer
transducer with the combination architecture of self-attention transformer and
RNN is proposed. And then the choice of different modeling units for
transformer transducer is explored. In addition, we present a new mix-bandwidth
training method to obtain a general model that is able to accurately recognize
Mandarin speech with different sampling rates simultaneously. All of our
experiments are conducted on about 12,000 hours of Mandarin speech with
sampling rate in 8kHz and 16kHz. Experimental results show that Mandarin
transformer transducer using syllable with tone achieves the best performance.
It yields an average of 14.4% and 44.1% relative Word Error Rate (WER)
reduction when compared with the models using syllable initial/final with tone
and Chinese character, respectively. Also, it outperforms the model based on
syllable initial/final with tone with an average of 13.5% relative Character
Error Rate (CER) reduction.
- Abstract(参考訳): モデリングユニットとモデルアーキテクチャは、エンドツーエンド音声認識におけるリカレントニューラルネットワークトランスデューサ(RNN-T)の2つの重要な要素である。
マンダリン音声認識タスクにおけるRNN-Tの性能向上のために,自己注意変換器とRNNを組み合わせたトランスデューサを提案する。
そして、トランスフォーマートランスデューサの異なるモデリングユニットの選択について検討する。
さらに,サンプリング率の異なるマンダリン音声を高精度に認識できる汎用モデルを得るための混合帯域幅学習法を提案する。
全実験は8kHzと16kHzのサンプリングレートで約12,000時間のマンダリン音声で行った。
実験結果から,音節を用いたマンダリン変圧器のトランスデューサが最高の性能を発揮することがわかった。
音素と漢字で音節初期/最終音を使用するモデルと比較すると、平均14.4%と平均44.1%の単語誤り率(wer)が低下する。
また、音節の初期/最終音節に基づいて、平均13.5%の相対的文字誤り率(CER)低下率でモデルを上回ります。
関連論文リスト
- Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Knowledge Distillation from BERT Transformer to Speech Transformer for
Intent Classification [66.62686601948455]
本研究では,変圧器に基づく言語モデルから変圧器に基づく音声モデルへの知識蒸留に特化して設計された変圧器蒸留法のスコープを利用する。
本研究では,Fluent 音声コーパスとATISデータベースの意図分類精度を99.10%,88.79%とした。
論文 参考訳(メタデータ) (2021-08-05T13:08:13Z) - Multitask Learning and Joint Optimization for Transformer-RNN-Transducer
Speech Recognition [13.198689566654107]
本稿では,マルチタスク学習,共同最適化,および変換器-RNN-トランスデューサシステムの共同復号法について検討する。
提案手法は, 単語誤り率(WER)を16.6 %, 13.3 %削減できることを示す。
論文 参考訳(メタデータ) (2020-11-02T06:38:06Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - Conformer: Convolution-augmented Transformer for Speech Recognition [60.119604551507805]
最近、トランスフォーマーと畳み込みニューラルネットワーク(CNN)に基づくモデルが、自動音声認識(ASR)の有望な結果を示している。
音声認識のための畳み込み拡張変換器,Conformerを提案する。
広く使われているLibriSpeechベンチマークでは、言語モデルを用いずにWERが2.1%/4.3%、テスト/テストの外部言語モデルで1.9%/3.9%を達成した。
論文 参考訳(メタデータ) (2020-05-16T20:56:25Z) - End-to-End Multi-speaker Speech Recognition with Transformer [88.22355110349933]
音声認識モデルにおけるRNNベースのエンコーダデコーダをトランスフォーマーアーキテクチャに置き換える。
また、計算量を削減するために、シーケンス全体ではなくセグメントに制限されるセルフアテンションコンポーネントを変更します。
論文 参考訳(メタデータ) (2020-02-10T16:29:26Z) - EEG based Continuous Speech Recognition using Transformers [13.565270550358397]
エンド・ツー・エンド・エンド・トランスフォーマーを用いた自動音声認識(ASR)モデルを用いて,脳波特徴量を用いた連続音声認識について検討した。
その結果, トランスフォーマーを用いたモデルでは, 繰り返しニューラルネットワーク(RNN)に基づくシーケンス・ツー・シーケンス脳波モデルと比較して, トレーニングの高速化が示されている。
論文 参考訳(メタデータ) (2019-12-31T08:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。