論文の概要: End-to-End Multi-speaker Speech Recognition with Transformer
- arxiv url: http://arxiv.org/abs/2002.03921v2
- Date: Thu, 13 Feb 2020 00:50:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 09:30:30.622764
- Title: End-to-End Multi-speaker Speech Recognition with Transformer
- Title(参考訳): 変圧器を用いたエンドツーエンドマルチスピーカ音声認識
- Authors: Xuankai Chang, Wangyou Zhang, Yanmin Qian, Jonathan Le Roux, Shinji
Watanabe
- Abstract要約: 音声認識モデルにおけるRNNベースのエンコーダデコーダをトランスフォーマーアーキテクチャに置き換える。
また、計算量を削減するために、シーケンス全体ではなくセグメントに制限されるセルフアテンションコンポーネントを変更します。
- 参考スコア(独自算出の注目度): 88.22355110349933
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, fully recurrent neural network (RNN) based end-to-end models have
been proven to be effective for multi-speaker speech recognition in both the
single-channel and multi-channel scenarios. In this work, we explore the use of
Transformer models for these tasks by focusing on two aspects. First, we
replace the RNN-based encoder-decoder in the speech recognition model with a
Transformer architecture. Second, in order to use the Transformer in the
masking network of the neural beamformer in the multi-channel case, we modify
the self-attention component to be restricted to a segment rather than the
whole sequence in order to reduce computation. Besides the model architecture
improvements, we also incorporate an external dereverberation preprocessing,
the weighted prediction error (WPE), enabling our model to handle reverberated
signals. Experiments on the spatialized wsj1-2mix corpus show that the
Transformer-based models achieve 40.9% and 25.6% relative WER reduction, down
to 12.1% and 6.4% WER, under the anechoic condition in single-channel and
multi-channel tasks, respectively, while in the reverberant case, our methods
achieve 41.5% and 13.8% relative WER reduction, down to 16.5% and 15.2% WER.
- Abstract(参考訳): 近年,フルリカレントニューラルネットワーク(RNN)に基づくエンド・ツー・エンドモデルは,単一チャネルとマルチチャネルの両方のシナリオにおいて,マルチ話者音声認識に有効であることが証明されている。
本稿では,2つの側面に焦点をあてて,これらのタスクに対するTransformerモデルの利用について検討する。
まず,音声認識モデルにおけるrnnベースのエンコーダデコーダをトランスフォーマアーキテクチャに置き換える。
第2に、マルチチャネルの場合、神経ビームフォーマのマスキングネットワークにおいてトランスを使用するため、計算量を減らすために、セルフアテンション成分をシーケンス全体ではなくセグメントに制限するように修正する。
モデルアーキテクチャの改善に加えて,外部の残響前処理,重み付き予測誤差(WPE)も組み込んで,残響信号の処理を可能にした。
空間化wsj1-2mixコーパスを用いた実験の結果,トランスフォーマーベースモデルでは,1チャネルおよび複数チャネルタスクでそれぞれ40.9%,25.6%,WERで12.1%,WERで6.4%,逆流の場合では41.5%,WERで16.5%,WERで13.8%,WERで16.5%,WERで6.2%と低下した。
関連論文リスト
- Improving Transformer-based Networks With Locality For Automatic Speaker
Verification [40.06788577864032]
話者埋め込み抽出のためのトランスフォーマーベースアーキテクチャが検討されている。
本研究では,2方向の局所性モデルを用いてトランスフォーマーを改良する。
本稿では,VoxCelebデータセットと大規模Microsoft内部多言語(MS-internal)データセットに対する提案手法の評価を行った。
論文 参考訳(メタデータ) (2023-02-17T01:04:51Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - Raw Waveform Encoder with Multi-Scale Globally Attentive Locally
Recurrent Networks for End-to-End Speech Recognition [45.858039215825656]
本稿では,グローバルな注意的局所再帰(GALR)ネットワークを採用し,生波形を直接入力とする新しいエンコーダを提案する。
ベンチマークデータセットAISHELL-2と,5,000時間21,000時間の大規模マンダリン音声コーパスを用いて実験を行った。
論文 参考訳(メタデータ) (2021-06-08T12:12:33Z) - Container: Context Aggregation Network [83.12004501984043]
最近の発見は、従来の畳み込みやトランスフォーマーコンポーネントを使わずに、シンプルなベースのソリューションが効果的な視覚表現を生成できることを示している。
マルチヘッドコンテキストアグリゲーションのための汎用ビルディングブロックCONText Ion NERtwokを提案する。
より大規模な入力画像解像度に依存する下流タスクにはスケールしないTransformerベースの手法とは対照的に、当社の効率的なネットワークであるModellightは、オブジェクト検出やインスタンスセグメンテーションネットワークに利用することができる。
論文 参考訳(メタデータ) (2021-06-02T18:09:11Z) - VATT: Transformers for Multimodal Self-Supervised Learning from Raw
Video, Audio and Text [60.97904439526213]
video-audio-text transformer (vatt) は生の信号を入力として取り、様々な下流タスクに役立つほどリッチなマルチモーダル表現を抽出する。
マルチモーダルなコントラスト損失を用いて,vattのエンドツーエンドをスクラッチからトレーニングし,映像動作認識,音声イベント分類,画像分類,テキストからビデオへの検索といった下流タスクによってその性能を評価する。
論文 参考訳(メタデータ) (2021-04-22T17:07:41Z) - ASAPP-ASR: Multistream CNN and Self-Attentive SRU for SOTA Speech
Recognition [21.554020483837096]
本稿では,2つの新しいニューラルネットワークアーキテクチャを持つLibriSpeechコーパス上でのSOTA(State-of-the-art)性能について述べる。
ハイブリッドASRフレームワークでは、マルチストリームCNN音響モデルが複数の並列パイプラインにおける音声フレームの入力を処理する。
さらに,24層SRU言語モデルを用いてN-best再構成を行い,テストクリーンで1.75%,他で4.46%のWERを実現した。
論文 参考訳(メタデータ) (2020-05-21T05:18:34Z) - Simplified Self-Attention for Transformer-based End-to-End Speech
Recognition [56.818507476125895]
本稿では,プロジェクション層の代わりにFSMNメモリブロックを用いてクエリとキーベクトルを生成する,簡易な自己アテンション層(SSAN)を提案する。
我々は,公的なAISHELL-1,1000時間内,20,000時間大規模マンダリンタスクにおけるSSANベースおよび従来のSANベースのトランスフォーマーの評価を行った。
論文 参考訳(メタデータ) (2020-05-21T04:55:59Z) - Conformer: Convolution-augmented Transformer for Speech Recognition [60.119604551507805]
最近、トランスフォーマーと畳み込みニューラルネットワーク(CNN)に基づくモデルが、自動音声認識(ASR)の有望な結果を示している。
音声認識のための畳み込み拡張変換器,Conformerを提案する。
広く使われているLibriSpeechベンチマークでは、言語モデルを用いずにWERが2.1%/4.3%、テスト/テストの外部言語モデルで1.9%/3.9%を達成した。
論文 参考訳(メタデータ) (2020-05-16T20:56:25Z) - Research on Modeling Units of Transformer Transducer for Mandarin Speech
Recognition [13.04590477394637]
本稿では,自己注意変換器とRNNを組み合わせたトランスデューサを提案する。
8kHzと16kHzのサンプリングレートで約12,000時間のマンダリン音声実験を行った。
音節の初期/最終音節と漢字を用いたモデルと比較して平均14.4%と44.1%の単語誤り率(WER)が減少する。
論文 参考訳(メタデータ) (2020-04-26T05:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。