論文の概要: Multi-View Frequency-Attention Alternative to CNN Frontends for
Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2306.06954v1
- Date: Mon, 12 Jun 2023 08:37:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 15:29:53.753089
- Title: Multi-View Frequency-Attention Alternative to CNN Frontends for
Automatic Speech Recognition
- Title(参考訳): 自動音声認識のためのcnnフロントエンドのマルチビュー周波数対応方式
- Authors: Belen Alastruey, Lukas Drude, Jahn Heymann, Simon Wiesler
- Abstract要約: 周波数に対するグローバルな関心は、局所的な畳み込みよりも有益であることを示す。
畳み込み型ニューラルネットワークトランスデューサに代えて,生産規模での単語誤り率を2.4%削減する。
- 参考スコア(独自算出の注目度): 12.980843126905203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional frontends are a typical choice for Transformer-based automatic
speech recognition to preprocess the spectrogram, reduce its sequence length,
and combine local information in time and frequency similarly. However, the
width and height of an audio spectrogram denote different information, e.g.,
due to reverberation as well as the articulatory system, the time axis has a
clear left-to-right dependency. On the contrary, vowels and consonants
demonstrate very different patterns and occupy almost disjoint frequency
ranges. Therefore, we hypothesize, global attention over frequencies is
beneficial over local convolution. We obtain 2.4 % relative word error rate
reduction (rWERR) on a production scale Conformer transducer replacing its
convolutional neural network frontend by the proposed F-Attention module on
Alexa traffic. To demonstrate generalizability, we validate this on public
LibriSpeech data with a long short term memory-based listen attend and spell
architecture obtaining 4.6 % rWERR and demonstrate robustness to (simulated)
noisy conditions.
- Abstract(参考訳): 畳み込みフロントエンドは、Transformerベースの自動音声認識において典型的な選択であり、スペクトルを前処理し、そのシーケンス長を減らし、時間と周波数の局所情報を組み合わせる。
しかし、音声スペクトログラムの幅と高さは、残響や調音システムによって異なる情報を示すため、時間軸は左から右への明確な依存性を持つ。
逆に母音と子音は、非常に異なるパターンを示し、ほぼ不規則な周波数域を占有する。
したがって,局所畳み込みよりも周波数に対するグローバルな注意が有益であると仮定する。
提案するf-attentionモジュールによる畳み込みニューラルネットワークフロントエンドをalexaトラフィックに置き換えた,生産規模コンフォーメータトランスデューサ上で,約2.4%の相対単語誤り率低減(rwerr)を得る。
一般化可能性を示すために,短期記憶に基づくリスニング・アンド・スペル・アーキテクチャを用いて,公開librispeechデータを用いて4.6 % rwerrを取得し,(シミュレーション)ノイズ条件に対するロバスト性を示す。
関連論文リスト
- RTFS-Net: Recurrent Time-Frequency Modelling for Efficient Audio-Visual Speech Separation [18.93255531121519]
本稿では,時間周波数領域の音声-視覚音声分離手法を提案する。
RTFS-Netはそのアルゴリズムをショートタイムフーリエ変換によって得られる複雑な時間周波数ビンに適用する。
これは、時間周波数領域の音声・視覚的音声分離法として初めて、現代の時間領域の全てを上回ります。
論文 参考訳(メタデータ) (2023-09-29T12:38:00Z) - Spatiotemporal Augmentation on Selective Frequencies for Video
Representation Learning [36.352159541825095]
ビデオ表現のための周波数領域におけるデータ拡張をフィルタするFreqAugを提案する。
FreqAugは、空間的または時間的低周波成分をドロップすることで、ビデオのダイナミック機能にもっとフォーカスするようにモデルをプッシュする。
提案手法の汎用性を検証するため,FreqAugを複数の自己教師型学習フレームワーク上で実験し,標準拡張を行った。
論文 参考訳(メタデータ) (2022-04-08T06:19:32Z) - Single microphone speaker extraction using unified time-frequency
Siamese-Unet [22.224446472612197]
両表現を用いたSiamese-Unetアーキテクチャを提案する。
周波数領域にシームエンコーダを適用し、ノイズスペクトルと基準スペクトルの埋め込みを推定する。
このモデルは、時間領域情報を活用するために、SI-SDR(Scale-Invariant Signal-to-Distortion Ratio)損失をトレーニングする。
論文 参考訳(メタデータ) (2022-03-06T11:45:30Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Speaker Representation Learning using Global Context Guided Channel and
Time-Frequency Transformations [67.18006078950337]
グローバルな文脈情報を用いて、重要なチャネルを強化し、有意義な時間周波数位置を再検討する。
提案されたモジュールは、人気のあるResNetベースのモデルとともに、VoxCeleb1データセットで評価される。
論文 参考訳(メタデータ) (2020-09-02T01:07:29Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z) - Multi-Time-Scale Convolution for Emotion Recognition from Speech Audio
Signals [7.219077740523682]
本稿では,音声データを解析する際の時間変動に対する柔軟性を実現するため,マルチタイムスケール(MTS)手法を提案する。
MTSと標準畳み込み層を,異なる大きさの4つのデータセットを用いて,音声からの感情認識のための異なるアーキテクチャで評価した。
論文 参考訳(メタデータ) (2020-03-06T12:28:04Z) - Robust Multi-channel Speech Recognition using Frequency Aligned Network [23.397670239950187]
我々は、堅牢な自動音声認識に周波数整列ネットワークを用いる。
周波数整列ネットワークを用いたマルチチャネル音響モデルでは,単語誤り率を最大で18%低減することを示す。
論文 参考訳(メタデータ) (2020-02-06T21:47:39Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。