論文の概要: Directional ASR: A New Paradigm for E2E Multi-Speaker Speech Recognition
with Source Localization
- arxiv url: http://arxiv.org/abs/2011.00091v1
- Date: Fri, 30 Oct 2020 20:26:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 17:11:23.032958
- Title: Directional ASR: A New Paradigm for E2E Multi-Speaker Speech Recognition
with Source Localization
- Title(参考訳): Directional ASR: 音源定位によるE2Eマルチスピーカ音声認識のための新しいパラダイム
- Authors: Aswin Shanmugam Subramanian, Chao Weng, Shinji Watanabe, Meng Yu, Yong
Xu, Shi-Xiong Zhang, Dong Yu
- Abstract要約: 本稿では、指向性自動音声認識(D-ASR)と呼ばれる、エンドツーエンドのニューラルネットワーク方式で遠距離場マルチスピーカデータを処理するための新しいパラダイムを提案する。
D-ASRでは、マイクロホンアレイに対するソースの方位角を潜時変数として定義する。
- 参考スコア(独自算出の注目度): 73.62550438861942
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a new paradigm for handling far-field multi-speaker data
in an end-to-end neural network manner, called directional automatic speech
recognition (D-ASR), which explicitly models source speaker locations. In
D-ASR, the azimuth angle of the sources with respect to the microphone array is
defined as a latent variable. This angle controls the quality of separation,
which in turn determines the ASR performance. All three functionalities of
D-ASR: localization, separation, and recognition are connected as a single
differentiable neural network and trained solely based on ASR error
minimization objectives. The advantages of D-ASR over existing methods are
threefold: (1) it provides explicit speaker locations, (2) it improves the
explainability factor, and (3) it achieves better ASR performance as the
process is more streamlined. In addition, D-ASR does not require explicit
direction of arrival (DOA) supervision like existing data-driven localization
models, which makes it more appropriate for realistic data. For the case of two
source mixtures, D-ASR achieves an average DOA prediction error of less than
three degrees. It also outperforms a strong far-field multi-speaker end-to-end
system in both separation quality and ASR performance.
- Abstract(参考訳): 本稿では,音源話者の位置を明示的にモデル化する指向性自動音声認識(d-asr)と呼ばれる,遠方界マルチスピーカデータをエンドツーエンドニューラルネットワーク方式で扱うための新しいパラダイムを提案する。
D−ASRでは、マイクロホンアレイに対するソースの方位角が潜時変数として定義される。
この角度は分離の質を制御し、ASR性能を決定する。
D-ASRの3つの機能: 局所化、分離、認識は単一の微分可能なニューラルネットワークとして接続され、ASRエラー最小化目的のみに基づいて訓練される。
既存の手法に対するD-ASRの利点は、(1)明示的な話者位置を提供し、(2)説明可能性の向上、(3)プロセスがより合理化されるにつれて、より良いASR性能を達成することである。
さらに、D-ASRは、既存のデータ駆動ローカライゼーションモデルのような、明確な到着方向(DOA)の監督を必要としないため、現実的なデータに適している。
2つのソース混合の場合、D-ASRは平均3度未満のDOA予測誤差を達成する。
また、分離品質とASR性能の両方において、強力な遠距離マルチスピーカエンドツーエンドシステムより優れている。
関連論文リスト
- Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs [73.74375912785689]
本稿では,音声認識システムのための統合学習戦略を提案する。
3つのタスクの1つのモデルをトレーニングすることで、VSRとAVSRの性能が向上することを示す。
また,非ラベル標本をより効果的に活用するために,強欲な擬似ラベリング手法を導入する。
論文 参考訳(メタデータ) (2024-11-04T16:46:53Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - RIR-SF: Room Impulse Response Based Spatial Feature for Target Speech Recognition in Multi-Channel Multi-Speaker Scenarios [36.50731790624643]
室内インパルス応答(RIR)に基づく空間的特徴を持つRIR-SFについて紹介する。
RIR-SFは従来の3次元空間特性よりも優れており、理論的および経験的性能が優れている。
また、RIR-SFのための最適化されたオールニューラルマルチチャネルASRフレームワークを提案し、マルチチャネル設定におけるターゲット話者ASRに対するCERの相対的な21.3%削減を実現した。
論文 参考訳(メタデータ) (2023-10-31T20:42:08Z) - End-to-End Multi-speaker ASR with Independent Vector Analysis [80.83577165608607]
マルチチャンネル・マルチスピーカ自動音声認識のためのエンドツーエンドシステムを開発した。
本稿では, 独立ベクトル解析(IVA)のパラダイムを基礎として, ソース分離と収差分離のパラダイムを提案する。
論文 参考訳(メタデータ) (2022-04-01T05:45:33Z) - A Comparative Study on Speaker-attributed Automatic Speech Recognition
in Multi-party Meetings [53.120885867427305]
会議シナリオにおける話者分散自動音声認識(SA-ASR)の3つのアプローチを評価する。
WD-SOT法は平均話者依存文字誤り率(SD-CER)を10.7%削減する
TS-ASRアプローチはFD-SOTアプローチよりも優れ、16.5%の相対的なSD-CER削減をもたらす。
論文 参考訳(メタデータ) (2022-03-31T06:39:14Z) - ASR-Aware End-to-end Neural Diarization [15.172086811068962]
本稿では、音響入力と自動音声認識(ASR)モデルから得られる特徴の両方を用いて、コンフォーマーに基づくエンドツーエンドニューラルダイアリゼーション(EEND)モデルを提案する。
この機能を組み込むために、ConformerベースのEENDアーキテクチャの3つの変更が提案されている。
Switchboard+SREデータセットの2つの話者による英語会話実験により、単語位置情報を用いたマルチタスク学習がASR特徴を利用する最も効果的な方法であることが示された。
論文 参考訳(メタデータ) (2022-02-02T21:17:14Z) - Multi-Channel Multi-Speaker ASR Using 3D Spatial Feature [35.280174671205046]
本稿では,3次元空間におけるターゲット話者の位置情報を初めて活用することによって,課題を考察する。
2つのパラダイムについて検討した。1) 多チャンネル音声分離モジュールを備えたパイプラインシステムと,1)最先端の単一チャネルASRモジュール,2)3次元空間特徴を直接ASRシステムへの入力として使用する「オール・イン・ワン」モデルである。
実験結果から,1)提案したALL-In-Oneモデルは,推定時間を半分に減らしながら,パイプラインシステムに匹敵する誤差率を達成した。
論文 参考訳(メタデータ) (2021-11-22T07:19:12Z) - Discriminative Multi-modality Speech Recognition [17.296404414250553]
視覚は、しばしば音声音声認識(ASR)の相補的モダリティとして使用される。
本稿では,2段階音声認識モデルを提案する。
第1段階では、対象の音声を、対応する唇の動きの視覚情報から助けを借りて背景雑音から分離し、モデル「リスト」を明確にする。
第2段階では、音声モダリティは視覚的モダリティを再び組み合わせて、MSRサブネットワークによる音声の理解を深め、認識率をさらに向上させる。
論文 参考訳(メタデータ) (2020-05-12T07:56:03Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。