論文の概要: Attention-based Neural Beamforming Layers for Multi-channel Speech
Recognition
- arxiv url: http://arxiv.org/abs/2105.05920v1
- Date: Wed, 12 May 2021 19:32:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-14 13:44:09.587087
- Title: Attention-based Neural Beamforming Layers for Multi-channel Speech
Recognition
- Title(参考訳): 多チャンネル音声認識のためのアテンションベースニューラルビームフォーミング層
- Authors: Bhargav Pulugundla, Yang Gao, Brian King, Gokce Keskin, Harish
Mallidi, Minhua Wu, Jasha Droppo, Roland Maas
- Abstract要約: 畳み込みニューラルネットワークとビームフォーミングに注目した2D Conv-Attentionモジュールを提案する。
入力チャネル間の相関関係を明確にモデル化するために、自己およびクロスアテンションを適用します。
その結果,ベースラインニューラルビームフォーマに対する提案モデルによるwerの3.8%の相対的改善が認められた。
- 参考スコア(独自算出の注目度): 17.009051842682677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention-based beamformers have recently been shown to be effective for
multi-channel speech recognition. However, they are less capable at capturing
local information. In this work, we propose a 2D Conv-Attention module which
combines convolution neural networks with attention for beamforming. We apply
self- and cross-attention to explicitly model the correlations within and
between the input channels. The end-to-end 2D Conv-Attention model is compared
with a multi-head self-attention and superdirective-based neural beamformers.
We train and evaluate on an in-house multi-channel dataset. The results show a
relative improvement of 3.8% in WER by the proposed model over the baseline
neural beamformer.
- Abstract(参考訳): 注意に基づくビームフォーマは、最近マルチチャネル音声認識に有効であることが示されている。
しかし、ローカル情報を取得する能力は低い。
本研究では,畳み込みニューラルネットワークとビームフォーミングの注意を組み合わせる2次元convアテンションモジュールを提案する。
我々は、入力チャネル内および入力チャネル間の相関関係を明示的にモデル化するために、自己および相互アテンションを適用した。
エンドツーエンドの2D Conv-Attentionモデルは、マルチヘッドの自己アテンションとスーパーディレクティブベースのニューラルビームフォーマと比較される。
社内のマルチチャネルデータセットをトレーニングし,評価する。
その結果,ベースラインニューラルビームフォーマに対する提案モデルによるwerの3.8%の相対的改善が認められた。
関連論文リスト
- Self-Supervised Learning for Multi-Channel Neural Transducer [3.045851438458641]
本稿では,wav2vec 2.0 フレームワークに基づくマルチチャネルエンドツーエンド ASR モデルの自己教師型学習手法について検討する。
我々は,遠距離フィールド内データセットの事前学習を行わないモデルと比較して,文字誤り率を66%削減した。
論文 参考訳(メタデータ) (2024-08-06T04:12:31Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - On Neural Architectures for Deep Learning-based Source Separation of
Co-Channel OFDM Signals [104.11663769306566]
周波数分割多重化(OFDM)信号を含む単一チャネル音源分離問題について検討する。
我々はOFDM構造からの洞察に基づいて、ネットワークパラメータ化に対する重要なドメインインフォームド修正を提案する。
論文 参考訳(メタデータ) (2023-03-11T16:29:13Z) - MIMO-DBnet: Multi-channel Input and Multiple Outputs DOA-aware
Beamforming Network for Speech Separation [55.533789120204055]
混合信号のみを用いた方向案内音声分離のためのエンドツーエンドビームフォーミングネットワークを提案する。
具体的には,複数チャネルの入力と複数出力アーキテクチャを設計し,各ソースの指向性に基づく埋め込みとビームフォーミング重みを推定する。
論文 参考訳(メタデータ) (2022-12-07T01:52:40Z) - Streaming Audio-Visual Speech Recognition with Alignment Regularization [69.30185151873707]
本稿では,ハイブリッド接続型時間分類(CTC)/アテンションニューラルネットワークアーキテクチャに基づくストリーミングAV-ASRシステムを提案する。
提案したAV-ASRモデルは、オフラインおよびオンライン設定でLip Reading Sentences 3データセット上で、WERの2.0%と2.6%を達成する。
論文 参考訳(メタデータ) (2022-11-03T20:20:47Z) - Decoupled Mixup for Generalized Visual Recognition [71.13734761715472]
視覚認識のためのCNNモデルを学習するための新しい「デカップリング・ミクスアップ」手法を提案する。
本手法は,各画像を識別領域と雑音発生領域に分離し,これらの領域を均一に組み合わせてCNNモデルを訓練する。
実験結果から,未知のコンテキストからなるデータに対する本手法の高一般化性能を示す。
論文 参考訳(メタデータ) (2022-10-26T15:21:39Z) - Improving Neural Predictivity in the Visual Cortex with Gated Recurrent
Connections [0.0]
我々は,腹側視覚ストリームのユビキタスな特徴である横方向のリカレント接続を考慮したアーキテクチャに焦点を移し,適応的受容場を創出することを目指している。
本研究は,我々のアプローチの堅牢性と活性化の生物学的忠実性を高めるために,特定のデータ拡張技術を用いている。
論文 参考訳(メタデータ) (2022-03-22T17:27:22Z) - Three-class Overlapped Speech Detection using a Convolutional Recurrent
Neural Network [32.59704287230343]
提案手法は,非音声,単一話者発話,重複発話の3つのクラスに分類できる。
畳み込み型リカレントニューラルネットワークアーキテクチャは、畳み込み層がローカルパターンをモデル化する能力と、シーケンシャルな情報をモデル化するリカレント層の能力の両方の恩恵を受けるために研究されている。
提案した重畳重畳音声検出モデルは,DIHARD II評価セット上での精度0.6648,リコール0.3222で最先端の性能を確立する。
論文 参考訳(メタデータ) (2021-04-07T03:01:34Z) - Streaming Multi-speaker ASR with RNN-T [8.701566919381223]
本研究は、リカレントニューラルネットワークトランスデューサ(RNN-T)に基づくマルチスピーカ音声認識に焦点を当てている。
RNN-Tの高レベル話者追跡能力を高めるために,前者における話者順ラベルの分離が重要であることを示す。
我々の最良モデルは、前述した最先端非ストリーミングモデル(10.3%)と競合する2話者Libriデータ上で10.2%のWERを達成する。
論文 参考訳(メタデータ) (2020-11-23T19:10:40Z) - Speech Prediction in Silent Videos using Variational Autoencoders [29.423462898526605]
我々はサイレントビデオで音声を生成するモデルを提案する。
提案モデルは、繰り返しニューラルネットワークと変分深部生成モデルを組み合わせて、聴覚の条件分布を学習する。
標準ベンチマークに基づくGRIDデータセット上で,本モデルの性能を示す。
論文 参考訳(メタデータ) (2020-11-14T17:09:03Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。