論文の概要: Raw Waveform Encoder with Multi-Scale Globally Attentive Locally
Recurrent Networks for End-to-End Speech Recognition
- arxiv url: http://arxiv.org/abs/2106.04275v1
- Date: Tue, 8 Jun 2021 12:12:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 15:41:46.980310
- Title: Raw Waveform Encoder with Multi-Scale Globally Attentive Locally
Recurrent Networks for End-to-End Speech Recognition
- Title(参考訳): エンド・ツー・エンド音声認識のためのマルチスケール大域的局所再帰ネットワークを有する生波形エンコーダ
- Authors: Max W. Y. Lam, Jun Wang, Chao Weng, Dan Su, Dong Yu
- Abstract要約: 本稿では,グローバルな注意的局所再帰(GALR)ネットワークを採用し,生波形を直接入力とする新しいエンコーダを提案する。
ベンチマークデータセットAISHELL-2と,5,000時間21,000時間の大規模マンダリン音声コーパスを用いて実験を行った。
- 参考スコア(独自算出の注目度): 45.858039215825656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end speech recognition generally uses hand-engineered acoustic
features as input and excludes the feature extraction module from its joint
optimization. To extract learnable and adaptive features and mitigate
information loss, we propose a new encoder that adopts globally attentive
locally recurrent (GALR) networks and directly takes raw waveform as input. We
observe improved ASR performance and robustness by applying GALR on different
window lengths to aggregate fine-grain temporal information into multi-scale
acoustic features. Experiments are conducted on a benchmark dataset AISHELL-2
and two large-scale Mandarin speech corpus of 5,000 hours and 21,000 hours.
With faster speed and comparable model size, our proposed multi-scale GALR
waveform encoder achieved consistent character error rate reductions (CERRs)
from 7.9% to 28.1% relative over strong baselines, including Conformer and
TDNN-Conformer. In particular, our approach demonstrated notable robustness
than the traditional handcrafted features and outperformed the baseline
MFCC-based TDNN-Conformer model by a 15.2% CERR on a music-mixed real-world
speech test set.
- Abstract(参考訳): エンドツーエンド音声認識は、一般に手動音響特徴を入力として使用し、特徴抽出モジュールを共同最適化から除外する。
学習可能で適応的な特徴を抽出し、情報損失を軽減するために、グローバルな注意的局所的再帰(GALR)ネットワークを採用し、生波形を直接入力とする新しいエンコーダを提案する。
異なるウィンドウ長にGALRを適用して,マルチスケール音響特性に微粒時間情報を集約することにより,ASR性能とロバスト性を向上する。
ベンチマークデータセットAISHELL-2と,5,000時間21,000時間の大規模マンダリン音声コーパスを用いて実験を行った。
高速かつ同等のモデルサイズで提案したマルチスケールGALR波形エンコーダは,コンバータやTDNN-コンバータなど,強いベースラインに対して7.9%から28.1%の一貫性のある文字誤り率削減を実現した。
特に,本手法は従来の手工芸品よりも顕著な頑健さを示し,音楽混合実世界の音声テストセットにおいて15.2%のCERRでMFCCベースのTDNN-Conformerモデルより優れていた。
関連論文リスト
- TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation [19.126525226518975]
パラメータと計算コストを大幅に削減した音声分離モデルを提案する。
TIGERは事前の知識を活用して周波数帯域を分割し、周波数情報を圧縮する。
我々は、TIGERが、最先端(SOTA)モデルTF-GridNetを上回る性能を達成することを示す。
論文 参考訳(メタデータ) (2024-10-02T12:21:06Z) - Anatomy of Industrial Scale Multilingual ASR [13.491861238522421]
本稿では,アセンブリの産業規模自動音声認識(ASR)システムについて述べる。
本システムは,教師なし(12.5M時間),教師なし(188K時間),疑似ラベル付き(1.6M時間)の4言語を対象とした多様なトレーニングデータセットを活用する。
論文 参考訳(メタデータ) (2024-04-15T14:48:43Z) - Unified End-to-End Speech Recognition and Endpointing for Fast and
Efficient Speech Systems [17.160006765475988]
本稿では,単一エンドツーエンド (E2E) モデルを用いて, ASR と EP タスクを協調訓練する手法を提案する。
我々は、EPにオーディオフレームを直接消費するか、ASRモデルから低レベルの潜在表現を消費するよう訓練する「スウィッチ」接続を導入する。
これにより、推論中にフレームフィルタリングを低コストで行うことができる単一のE2Eモデルが得られる。
論文 参考訳(メタデータ) (2022-11-01T23:43:15Z) - CMGAN: Conformer-based Metric GAN for Speech Enhancement [6.480967714783858]
本稿では,時間周波数領域に対する共振器を用いた距離生成逆ネットワーク(CMGAN)を提案する。
本生成装置では,2段コンバータブロックを用いて,全等級および複雑なスペクトログラム情報を集約する。
デコーダ段階では、大きさと複素スペクトルの推定を分離し、拡張された音声を再構成するために共同で組み込む。
論文 参考訳(メタデータ) (2022-03-28T23:53:34Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z) - WNARS: WFST based Non-autoregressive Streaming End-to-End Speech
Recognition [59.975078145303605]
本稿では,ハイブリッドCTC-attention AEDモデルと重み付き有限状態トランスデューサを用いた新しいフレームワークWNARSを提案する。
AISHELL-1タスクでは、640msの遅延で5.22%の文字エラー率を達成し、オンラインASRの最先端のパフォーマンスである私たちの知識を最大限に活用します。
論文 参考訳(メタデータ) (2021-04-08T07:56:03Z) - End-to-End Multi-speaker Speech Recognition with Transformer [88.22355110349933]
音声認識モデルにおけるRNNベースのエンコーダデコーダをトランスフォーマーアーキテクチャに置き換える。
また、計算量を削減するために、シーケンス全体ではなくセグメントに制限されるセルフアテンションコンポーネントを変更します。
論文 参考訳(メタデータ) (2020-02-10T16:29:26Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。