論文の概要: Structured State Space Decoder for Speech Recognition and Synthesis
- arxiv url: http://arxiv.org/abs/2210.17098v1
- Date: Mon, 31 Oct 2022 06:54:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 19:57:20.009403
- Title: Structured State Space Decoder for Speech Recognition and Synthesis
- Title(参考訳): 音声認識と合成のための構造化状態空間デコーダ
- Authors: Koichi Miyazaki, Masato Murata, Tomoki Koriyama
- Abstract要約: 構造化状態空間モデル(S4)が最近提案され、様々な時系列モデリングタスクに対して有望な結果が得られた。
本研究では,S4 を ASR およびテキスト音声タスクのデコーダとして適用し,トランスフォーマーデコーダと比較した。
ASR タスクでは,提案モデルが 1.88%/4.25% の競合単語誤り率 (WER) を達成することを示す。
- 参考スコア(独自算出の注目度): 9.354721572095272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic speech recognition (ASR) systems developed in recent years have
shown promising results with self-attention models (e.g., Transformer and
Conformer), which are replacing conventional recurrent neural networks.
Meanwhile, a structured state space model (S4) has been recently proposed,
producing promising results for various long-sequence modeling tasks, including
raw speech classification. The S4 model can be trained in parallel, same as the
Transformer model. In this study, we applied S4 as a decoder for ASR and
text-to-speech (TTS) tasks by comparing it with the Transformer decoder. For
the ASR task, our experimental results demonstrate that the proposed model
achieves a competitive word error rate (WER) of 1.88%/4.25% on LibriSpeech
test-clean/test-other set and a character error rate (CER) of 3.80%/2.63%/2.98%
on the CSJ eval1/eval2/eval3 set. Furthermore, the proposed model is more
robust than the standard Transformer model, particularly for long-form speech
on both the datasets. For the TTS task, the proposed method outperforms the
Transformer baseline.
- Abstract(参考訳): 近年開発された自動音声認識(ASR)システムは、従来のリカレントニューラルネットワークを置き換える自己認識モデル(TransformerやConformerなど)で有望な結果を示している。
一方、構造化状態空間モデル(S4)が最近提案され、生音声分類を含む様々な時系列モデリングタスクに有望な結果が得られた。
S4モデルはトランスフォーマーモデルと同様に並列で訓練することができる。
本研究では,ATRとTTSタスクのデコーダとしてS4を適用し,Transformerデコーダと比較した。
CSJ eval1/eval2/eval3 セットでは,ASR タスクにおいて,提案モデルが LibriSpeech テストクリーン/テスト-他セットでは 1.88%/4.25%,文字誤り率 (CER) が 3.80%/2.63%/2.98% であることを示す。
さらに,提案モデルは標準トランスフォーマーモデルよりも頑健であり,特に両データセットの長文音声に対して頑健である。
TTSタスクでは,提案手法がTransformerベースラインより優れている。
関連論文リスト
- A light-weight and efficient punctuation and word casing prediction model for on-device streaming ASR [0.31077024712075796]
自動音声認識(ASR)における句読解と単語ケーシング予測の必要性
本稿では,リアルタイムに句読解と単語ケーシングを共同で予測する軽量で効率的なモデルを提案する。
論文 参考訳(メタデータ) (2024-07-18T04:01:12Z) - Augmenting conformers with structured state-space sequence models for
online speech recognition [41.444671189679994]
モデルが左の文脈のみにアクセスするオンライン音声認識は、ASRシステムにとって重要かつ困難なユースケースである。
本研究では、構造化状態空間シーケンスモデル(S4)を組み込んだオンラインASRのためのニューラルエンコーダの強化について検討する。
我々はS4モデルの変種を比較するために系統的アブレーション研究を行い、それらを畳み込みと組み合わせた2つの新しいアプローチを提案する。
我々の最良のモデルは、LibrispeechによるテストセットでWERの4.01%/8.53%を達成する。
論文 参考訳(メタデータ) (2023-09-15T17:14:17Z) - Transformer-based approaches to Sentiment Detection [55.41644538483948]
テキスト分類のための4種類の最先端変圧器モデルの性能について検討した。
RoBERTa変換モデルは82.6%のスコアでテストデータセット上で最高のパフォーマンスを示し、品質予測に非常に推奨されている。
論文 参考訳(メタデータ) (2023-03-13T17:12:03Z) - Non-autoregressive sequence-to-sequence voice conversion [47.521186595305984]
本稿では,非自己回帰シーケンストシーケンス(nar-s2s)モデルに基づく新しい音声変換法を提案する。
我々はTransformerの代わりにConvolution-augmented Transformer(Conformer)を導入し、入力シーケンスからローカルとグローバルの両方のコンテキスト情報をキャプチャできるようにする。
論文 参考訳(メタデータ) (2021-04-14T11:53:51Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - Relative Positional Encoding for Speech Recognition and Direct
Translation [72.64499573561922]
相対位置符号化方式を音声変換器に適用する。
その結果,ネットワークは音声データに存在する変動分布に適応できることがわかった。
論文 参考訳(メタデータ) (2020-05-20T09:53:06Z) - Conformer: Convolution-augmented Transformer for Speech Recognition [60.119604551507805]
最近、トランスフォーマーと畳み込みニューラルネットワーク(CNN)に基づくモデルが、自動音声認識(ASR)の有望な結果を示している。
音声認識のための畳み込み拡張変換器,Conformerを提案する。
広く使われているLibriSpeechベンチマークでは、言語モデルを用いずにWERが2.1%/4.3%、テスト/テストの外部言語モデルで1.9%/3.9%を達成した。
論文 参考訳(メタデータ) (2020-05-16T20:56:25Z) - DiscreTalk: Text-to-Speech as a Machine Translation Problem [52.33785857500754]
本稿ではニューラルマシン翻訳(NMT)に基づくエンドツーエンドテキスト音声合成(E2E-TTS)モデルを提案する。
提案モデルは,非自己回帰ベクトル量子化変分オートエンコーダ(VQ-VAE)モデルと自己回帰トランスフォーマー-NMTモデルという2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2020-05-12T02:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。