論文の概要: Self-Attention Channel Combinator Frontend for End-to-End Multichannel
Far-field Speech Recognition
- arxiv url: http://arxiv.org/abs/2109.04783v1
- Date: Fri, 10 Sep 2021 11:03:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-13 19:49:39.131485
- Title: Self-Attention Channel Combinator Frontend for End-to-End Multichannel
Far-field Speech Recognition
- Title(参考訳): エンド・ツー・エンドのマルチチャンネル遠方音声認識のためのセルフアテンションチャネルコンビネータフロントエンド
- Authors: Rong Gong, Carl Quillen, Dushyant Sharma, Andrew Goderre, Jos\'e
La\'inez, Ljubomir Milanovi\'c
- Abstract要約: 十分に大きな遠距離訓練データが提示されると、マルチチャネルとエンドツーエンド(E2E)バックエンドを共同で最適化し、有望な結果を示す。
近年の文献では、MVDR(Minimum Varianceless Response)や固定ビームフォーマを学習可能なパラメータを持つE2E ASRシステムに統合できることが示されている。
本稿では、自己アテンション・チャンネル・ディストラクタ(SACC)ASRを提案する。これは、自己アテンション・メカニズムを利用して、大域スペクトル領域におけるマルチチャンネル音声信号を組み合わせたものである。
- 参考スコア(独自算出の注目度): 1.0276024900942875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When a sufficiently large far-field training data is presented, jointly
optimizing a multichannel frontend and an end-to-end (E2E) Automatic Speech
Recognition (ASR) backend shows promising results. Recent literature has shown
traditional beamformer designs, such as MVDR (Minimum Variance Distortionless
Response) or fixed beamformers can be successfully integrated as the frontend
into an E2E ASR system with learnable parameters. In this work, we propose the
self-attention channel combinator (SACC) ASR frontend, which leverages the
self-attention mechanism to combine multichannel audio signals in the magnitude
spectral domain. Experiments conducted on a multichannel playback test data
shows that the SACC achieved a 9.3% WERR compared to a state-of-the-art fixed
beamformer-based frontend, both jointly optimized with a ContextNet-based ASR
backend. We also demonstrate the connection between the SACC and the
traditional beamformers, and analyze the intermediate outputs of the SACC.
- Abstract(参考訳): 十分に大きな遠距離訓練データが提示されると、多チャンネルフロントエンドとエンドツーエンド(E2E)バックエンドを共同で最適化し、有望な結果を示す。
近年の文献では、MVDR (Minimum Variance Distortionless Response) や固定ビームフォーマといった従来のビームフォーマの設計が、学習可能なパラメータを持つE2E ASRシステムにフロントエンドとしてうまく統合できることが示されている。
本研究では,マルチチャネル音声信号を大域スペクトル領域に結合する自己アテンション機構を利用する,自己アテンションチャネルコンビネータ(sacc)asrフロントエンドを提案する。
マルチチャネル再生テストデータを用いて行った実験によると、SACCは最先端の固定ビームフォーマーベースのフロントエンドと比較して9.3%のWERRを達成した。
また、SACCと従来のビームフォーマとの接続を実証し、SACCの中間出力を解析する。
関連論文リスト
- MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - End-to-end Multichannel Speaker-Attributed ASR: Speaker Guided Decoder
and Input Feature Analysis [0.0]
本稿では,Conformerベースのエンコーダと多フレームのクロスチャネルアテンションと,話者対応のTransformerベースのデコーダを組み合わせた,エンドツーエンドのマルチチャネル話者分散自動音声認識(MC-SA-ASR)システムを提案する。
論文 参考訳(メタデータ) (2023-10-16T06:40:18Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Hybrid Knowledge-Data Driven Channel Semantic Acquisition and
Beamforming for Cell-Free Massive MIMO [6.010360758759109]
本稿では、ユビキタス・拡張現実(XR)アプリケーションのサポートを改善するために、屋外無線システムの進歩に焦点を当てる。
セルレス大規模マルチインプットマルチアウトプット(MIMO)システムにおいて,チャネル意味獲得とマルチユーザビームフォーミングのためのハイブリッド知識データ駆動方式を提案する。
論文 参考訳(メタデータ) (2023-07-06T15:35:55Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - End-to-End Multi-speaker ASR with Independent Vector Analysis [80.83577165608607]
マルチチャンネル・マルチスピーカ自動音声認識のためのエンドツーエンドシステムを開発した。
本稿では, 独立ベクトル解析(IVA)のパラダイムを基礎として, ソース分離と収差分離のパラダイムを提案する。
論文 参考訳(メタデータ) (2022-04-01T05:45:33Z) - Spatial Processing Front-End For Distant ASR Exploiting Self-Attention
Channel Combinator [11.248169478873344]
Weighted Prediction Error (WPE) 法によるチャネル短縮に基づく新しいマルチチャネルフロントエンドを提案する。
本研究では,ContextNetをベースとしたエンド・ツー・エンド(E2E)ASRシステムの一部として提案するシステムが,主要なASRシステムより優れていることを示す。
論文 参考訳(メタデータ) (2022-03-25T21:43:15Z) - The RoyalFlush System of Speech Recognition for M2MeT Challenge [5.863625637354342]
本稿では,M2MeTチャレンジにおけるマルチスピーカ自動音声認識(ASR)の追跡のためのRoyalFlushシステムについて述べる。
大規模シミュレーションデータを用いたシリアライズアウトプットトレーニング(SOT)に基づくマルチスピーカASRシステムを採用した。
我々のシステムでは、検証セットでは12.22%の絶対文字誤り率(CER)が、テストセットでは12.11%が削減された。
論文 参考訳(メタデータ) (2022-02-03T14:38:26Z) - Multi-Channel End-to-End Neural Diarization with Distributed Microphones [53.99406868339701]
EENDのTransformerエンコーダを,マルチチャネル入力を処理する2種類のエンコーダに置き換える。
また,単一チャンネル記録のみを用いたモデル適応手法を提案する。
論文 参考訳(メタデータ) (2021-10-10T03:24:03Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。