Fugu-MT 論文翻訳(概要): Raw Waveform Encoder with Multi-Scale Globally Attentive Locally Recurrent Networks for End-to-End Speech Recognition

論文の概要: Raw Waveform Encoder with Multi-Scale Globally Attentive Locally Recurrent Networks for End-to-End Speech Recognition

arxiv url: http://arxiv.org/abs/2106.04275v1
Date: Tue, 8 Jun 2021 12:12:33 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-09 15:41:46.980310
Title: Raw Waveform Encoder with Multi-Scale Globally Attentive Locally Recurrent Networks for End-to-End Speech Recognition
Title（参考訳）: エンド・ツー・エンド音声認識のためのマルチスケール大域的局所再帰ネットワークを有する生波形エンコーダ
Authors: Max W. Y. Lam, Jun Wang, Chao Weng, Dan Su, Dong Yu
Abstract要約: 本稿では,グローバルな注意的局所再帰(GALR)ネットワークを採用し,生波形を直接入力とする新しいエンコーダを提案する。ベンチマークデータセットAISHELL-2と,5,000時間21,000時間の大規模マンダリン音声コーパスを用いて実験を行った。
参考スコア（独自算出の注目度）: 45.858039215825656
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: End-to-end speech recognition generally uses hand-engineered acoustic features as input and excludes the feature extraction module from its joint optimization. To extract learnable and adaptive features and mitigate information loss, we propose a new encoder that adopts globally attentive locally recurrent (GALR) networks and directly takes raw waveform as input. We observe improved ASR performance and robustness by applying GALR on different window lengths to aggregate fine-grain temporal information into multi-scale acoustic features. Experiments are conducted on a benchmark dataset AISHELL-2 and two large-scale Mandarin speech corpus of 5,000 hours and 21,000 hours. With faster speed and comparable model size, our proposed multi-scale GALR waveform encoder achieved consistent character error rate reductions (CERRs) from 7.9% to 28.1% relative over strong baselines, including Conformer and TDNN-Conformer. In particular, our approach demonstrated notable robustness than the traditional handcrafted features and outperformed the baseline MFCC-based TDNN-Conformer model by a 15.2% CERR on a music-mixed real-world speech test set.
Abstract（参考訳）: エンドツーエンド音声認識は、一般に手動音響特徴を入力として使用し、特徴抽出モジュールを共同最適化から除外する。学習可能で適応的な特徴を抽出し、情報損失を軽減するために、グローバルな注意的局所的再帰(GALR)ネットワークを採用し、生波形を直接入力とする新しいエンコーダを提案する。異なるウィンドウ長にGALRを適用して,マルチスケール音響特性に微粒時間情報を集約することにより,ASR性能とロバスト性を向上する。ベンチマークデータセットAISHELL-2と,5,000時間21,000時間の大規模マンダリン音声コーパスを用いて実験を行った。高速かつ同等のモデルサイズで提案したマルチスケールGALR波形エンコーダは,コンバータやTDNN-コンバータなど,強いベースラインに対して7.9%から28.1%の一貫性のある文字誤り率削減を実現した。特に,本手法は従来の手工芸品よりも顕著な頑健さを示し,音楽混合実世界の音声テストセットにおいて15.2%のCERRでMFCCベースのTDNN-Conformerモデルより優れていた。

関連論文リスト

TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation [19.126525226518975]
パラメータと計算コストを大幅に削減した音声分離モデルを提案する。 TIGERは事前の知識を活用して周波数帯域を分割し、周波数情報を圧縮する。我々は、TIGERが、最先端(SOTA)モデルTF-GridNetを上回る性能を達成することを示す。
論文参考訳（メタデータ） (2024-10-02T12:21:06Z)
Anatomy of Industrial Scale Multilingual ASR [13.491861238522421]
本稿では,アセンブリの産業規模自動音声認識(ASR)システムについて述べる。本システムは,教師なし(12.5M時間),教師なし(188K時間),疑似ラベル付き(1.6M時間)の4言語を対象とした多様なトレーニングデータセットを活用する。
論文参考訳（メタデータ） (2024-04-15T14:48:43Z)
Unified End-to-End Speech Recognition and Endpointing for Fast and Efficient Speech Systems [17.160006765475988]
本稿では,単一エンドツーエンド (E2E) モデルを用いて, ASR と EP タスクを協調訓練する手法を提案する。我々は、EPにオーディオフレームを直接消費するか、ASRモデルから低レベルの潜在表現を消費するよう訓練する「スウィッチ」接続を導入する。これにより、推論中にフレームフィルタリングを低コストで行うことができる単一のE2Eモデルが得られる。
論文参考訳（メタデータ） (2022-11-01T23:43:15Z)
CMGAN: Conformer-based Metric GAN for Speech Enhancement [6.480967714783858]
本稿では,時間周波数領域に対する共振器を用いた距離生成逆ネットワーク(CMGAN)を提案する。本生成装置では,2段コンバータブロックを用いて,全等級および複雑なスペクトログラム情報を集約する。デコーダ段階では、大きさと複素スペクトルの推定を分離し、拡張された音声を再構成するために共同で組み込む。
論文参考訳（メタデータ） (2022-03-28T23:53:34Z)
Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文参考訳（メタデータ） (2022-03-19T08:47:18Z)
Relaxed Attention: A Simple Method to Boost Performance of End-to-End Automatic Speech Recognition [27.530537066239116]
トレーニング中のエンコーダ・デコーダの注意重みに対する均一分布の段階的注入である緩和注意の概念を導入する。ゆるやかな注意で訓練されたトランスフォーマーは、外部言語モデルを用いたデコーディングにおいて、標準ベースラインモデルよりも一貫して優れていた。 WSJでは,単語誤り率3.65%のトランスフォーマーに基づくエンドツーエンド音声認識のベンチマークを新たに設定した。
論文参考訳（メタデータ） (2021-07-02T21:01:17Z)
On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文参考訳（メタデータ） (2021-04-27T23:31:43Z)
WNARS: WFST based Non-autoregressive Streaming End-to-End Speech Recognition [59.975078145303605]
本稿では,ハイブリッドCTC-attention AEDモデルと重み付き有限状態トランスデューサを用いた新しいフレームワークWNARSを提案する。 AISHELL-1タスクでは、640msの遅延で5.22%の文字エラー率を達成し、オンラインASRの最先端のパフォーマンスである私たちの知識を最大限に活用します。
論文参考訳（メタデータ） (2021-04-08T07:56:03Z)
End-to-End Multi-speaker Speech Recognition with Transformer [88.22355110349933]
音声認識モデルにおけるRNNベースのエンコーダデコーダをトランスフォーマーアーキテクチャに置き換える。また、計算量を削減するために、シーケンス全体ではなくセグメントに制限されるセルフアテンションコンポーネントを変更します。
論文参考訳（メタデータ） (2020-02-10T16:29:26Z)
Temporal-Spatial Neural Filter: Direction Informed End-to-End Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。主な課題は、複雑な音響環境とリアルタイム処理の要件である。複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文参考訳（メタデータ） (2020-01-02T11:12:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。