論文の概要: End-to-end Multichannel Speaker-Attributed ASR: Speaker Guided Decoder
and Input Feature Analysis
- arxiv url: http://arxiv.org/abs/2310.10106v1
- Date: Mon, 16 Oct 2023 06:40:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 16:09:45.494626
- Title: End-to-end Multichannel Speaker-Attributed ASR: Speaker Guided Decoder
and Input Feature Analysis
- Title(参考訳): エンドツーエンドのマルチチャネル話者分散ASR:話者案内デコーダと入力特徴解析
- Authors: Can Cui (MULTISPEECH), Imran Ahamad Sheikh, Mostafa Sadeghi
(MULTISPEECH), Emmanuel Vincent (MULTISPEECH)
- Abstract要約: 本稿では,Conformerベースのエンコーダと多フレームのクロスチャネルアテンションと,話者対応のTransformerベースのデコーダを組み合わせた,エンドツーエンドのマルチチャネル話者分散自動音声認識(MC-SA-ASR)システムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an end-to-end multichannel speaker-attributed automatic speech
recognition (MC-SA-ASR) system that combines a Conformer-based encoder with
multi-frame crosschannel attention and a speaker-attributed Transformer-based
decoder. To the best of our knowledge, this is the first model that efficiently
integrates ASR and speaker identification modules in a multichannel setting. On
simulated mixtures of LibriSpeech data, our system reduces the word error rate
(WER) by up to 12% and 16% relative compared to previously proposed
single-channel and multichannel approaches, respectively. Furthermore, we
investigate the impact of different input features, including multichannel
magnitude and phase information, on the ASR performance. Finally, our
experiments on the AMI corpus confirm the effectiveness of our system for
real-world multichannel meeting transcription.
- Abstract(参考訳): 本稿では,コンフォーメータベースエンコーダとマルチフレームクロスチャネルアテンションとを結合したエンド・ツー・エンドのマルチチャネル話者属性自動音声認識(mc-sa-asr)システムを提案する。
私たちの知る限りでは、これはasrと話者識別モジュールをマルチチャネル設定で効率的に統合する最初のモデルです。
シミュレーションしたLibriSpeechデータに対して,従来提案されていたシングルチャネルとマルチチャネルの手法と比較して,単語誤り率(WER)を最大12%,16%削減する。
さらに,マルチチャネル等級や位相情報を含む異なる入力特徴がASR性能に与える影響について検討した。
最後に, AMIコーパスを用いた実験により, 実世界のマルチチャネル会議におけるシステムの有効性を確認した。
関連論文リスト
- MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - End-to-End Multi-speaker ASR with Independent Vector Analysis [80.83577165608607]
マルチチャンネル・マルチスピーカ自動音声認識のためのエンドツーエンドシステムを開発した。
本稿では, 独立ベクトル解析(IVA)のパラダイムを基礎として, ソース分離と収差分離のパラダイムを提案する。
論文 参考訳(メタデータ) (2022-04-01T05:45:33Z) - The Volcspeech system for the ICASSP 2022 multi-channel multi-party
meeting transcription challenge [18.33054364289739]
本稿ではICASSP 2022 Multi-channel Multi-party Meeting Transcription (M2MeT) Challengeについて述べる。
トラック1では,クラスタリングに基づく話者ダイアリゼーションシステムを実現するために,いくつかのアプローチを提案する。
トラック2では,コンバータモデルを用いた共同CTCアテンションアーキテクチャを用いたシステムを開発した。
論文 参考訳(メタデータ) (2022-02-09T03:38:39Z) - Multi-Channel End-to-End Neural Diarization with Distributed Microphones [53.99406868339701]
EENDのTransformerエンコーダを,マルチチャネル入力を処理する2種類のエンコーダに置き換える。
また,単一チャンネル記録のみを用いたモデル適応手法を提案する。
論文 参考訳(メタデータ) (2021-10-10T03:24:03Z) - Self-Attention Channel Combinator Frontend for End-to-End Multichannel
Far-field Speech Recognition [1.0276024900942875]
十分に大きな遠距離訓練データが提示されると、マルチチャネルとエンドツーエンド(E2E)バックエンドを共同で最適化し、有望な結果を示す。
近年の文献では、MVDR(Minimum Varianceless Response)や固定ビームフォーマを学習可能なパラメータを持つE2E ASRシステムに統合できることが示されている。
本稿では、自己アテンション・チャンネル・ディストラクタ(SACC)ASRを提案する。これは、自己アテンション・メカニズムを利用して、大域スペクトル領域におけるマルチチャンネル音声信号を組み合わせたものである。
論文 参考訳(メタデータ) (2021-09-10T11:03:43Z) - Multi-Channel Transformer Transducer for Speech Recognition [15.268402294151468]
本稿では,新しい音声認識モデルであるMulti-Channel Transformer Transducer(MCTT)を提案する。
MCTTは、エンドツーエンドのマルチチャネルトレーニング、低コスト、低レイテンシを備えており、オンデバイス音声認識におけるストリーミングデコーディングに適している。
論文 参考訳(メタデータ) (2021-08-30T01:50:51Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。