論文の概要: A Comparative Study of Modular and Joint Approaches for
Speaker-Attributed ASR on Monaural Long-Form Audio
- arxiv url: http://arxiv.org/abs/2107.02852v1
- Date: Tue, 6 Jul 2021 19:36:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-08 13:57:35.412257
- Title: A Comparative Study of Modular and Joint Approaches for
Speaker-Attributed ASR on Monaural Long-Form Audio
- Title(参考訳): 単音長形音声における話者分布型asrのモジュラーとジョイントアプローチの比較検討
- Authors: Naoyuki Kanda, Xiong Xiao, Jian Wu, Tianyan Zhou, Yashesh Gaur,
Xiaofei Wang, Zhong Meng, Zhuo Chen, Takuya Yoshioka
- Abstract要約: 話者分散自動音声認識(SA-ASR)は、マルチトーカー録音から「誰が何を話したか」を識別するタスクである。
共同最適化を考えると、最近、シミュレーションデータに有望な結果をもたらすエンド・ツー・エンド(E2E)SA-ASRモデルが提案されている。
本報告では,SA-ASRに対するモジュラーおよびジョイントアプローチの比較を行った。
- 参考スコア(独自算出の注目度): 45.04646762560459
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker-attributed automatic speech recognition (SA-ASR) is a task to
recognize "who spoke what" from multi-talker recordings. An SA-ASR system
usually consists of multiple modules such as speech separation, speaker
diarization and ASR. On the other hand, considering the joint optimization, an
end-to-end (E2E) SA-ASR model has recently been proposed with promising results
on simulation data. In this paper, we present our recent study on the
comparison of such modular and joint approaches towards SA-ASR on real monaural
recordings. We develop state-of-the-art SA-ASR systems for both modular and
joint approaches by leveraging large-scale training data, including 75 thousand
hours of ASR training data and the VoxCeleb corpus for speaker representation
learning. We also propose a new pipeline that performs the E2E SA-ASR model
after speaker clustering. Our evaluation on the AMI meeting corpus reveals that
after fine-tuning with a small real data, the joint system performs 9.2--29.4%
better in accuracy compared to the best modular system while the modular system
performs better before such fine-tuning. We also conduct various error analyses
to show the remaining issues for the monaural SA-ASR.
- Abstract(参考訳): 話者属性自動音声認識(sa-asr)は、マルチトーク録音から「誰が何を話したか」を認識するタスクである。
SA-ASRシステムは通常、音声分離、話者ダイアリゼーション、ASRなどの複数のモジュールで構成される。
一方, 共同最適化を考えると, シミュレーションデータに有望な結果をもたらすエンドツーエンドSA-ASRモデルが最近提案されている。
本稿では,SA-ASRへのモジュラーとジョイントのアプローチの比較を,実際のモノラル録音で行った最近の研究について述べる。
7万時間のasrトレーニングデータとvoxcelebコーパスを含む大規模トレーニングデータを活用して,モジュラとジョイントの両方のアプローチのための最先端のsa-asrシステムを開発した。
また,話者クラスタリング後にE2E SA-ASRモデルを実行する新しいパイプラインを提案する。
AMI会議コーパスの評価では,小型実データを用いて微調整を行った後,優れたモジュールシステムに比べて9.2~29.4%精度が向上し,モジュールシステムはこのような微調整よりも優れていた。
また,モナウラルSA-ASRの残りの問題を示すために,様々な誤り解析を行った。
関連論文リスト
- Joint Beamforming and Speaker-Attributed ASR for Real Distant-Microphone Meeting Transcription [18.151884620928936]
最先端のエンドツーエンド話者分散自動音声認識(SA-ASR)アーキテクチャは、マルチチャネルノイズと残響低減フロントエンドを欠いている。
そこで本研究では, 実聴記録のためのビームフォーミング法とSA-ASR法を提案する。
論文 参考訳(メタデータ) (2024-10-29T08:17:31Z) - Improving Speaker Assignment in Speaker-Attributed ASR for Real Meeting Applications [18.151884620928936]
本稿では,実生活シナリオにおける話者分散ASR(SA-ASR)システムの最適化を目的とした新しい研究を提案する。
本稿では,Voice Activity Detection (VAD), Speaker Diarization (SD), SA-ASRを含む実生活用パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-11T10:11:29Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - Analyzing And Improving Neural Speaker Embeddings for ASR [54.30093015525726]
本稿では,コンバータをベースとしたハイブリッドHMM ASRシステムに,ニューラルスピーカーの埋め込みを統合するための取り組みについて述べる。
話者埋め込みを用いたコンフォーマーベースハイブリッドASRシステムは, SWB 300hでのトレーニングにより, Hub5'00 と Hub5'01 で 9.0% WER を達成する。
論文 参考訳(メタデータ) (2023-01-11T16:56:03Z) - End-to-End Multi-speaker ASR with Independent Vector Analysis [80.83577165608607]
マルチチャンネル・マルチスピーカ自動音声認識のためのエンドツーエンドシステムを開発した。
本稿では, 独立ベクトル解析(IVA)のパラダイムを基礎として, ソース分離と収差分離のパラダイムを提案する。
論文 参考訳(メタデータ) (2022-04-01T05:45:33Z) - Feature Replacement and Combination for Hybrid ASR Systems [47.74348197215634]
ハイブリッドASRシステムにおけるこれらのフロントエンドフレームワーク、すなわちwav2vecの有用性を検討する。
事前学習した特徴抽出器の展開に加えて,異なる特徴を持つ同一タスクで訓練された既存の音響モデル(AM)の活用方法について検討する。
我々は、LibriSpeechテストクリーンおよびテスト他のセットの以前の最良のモデルよりも4%と6%の相対的な改善を得た。
論文 参考訳(メタデータ) (2021-04-09T11:04:58Z) - Large-Scale Pre-Training of End-to-End Multi-Talker ASR for Meeting
Transcription with Single Distant Microphone [43.77139614544301]
単一の遠距離マイクロホン(SDM)で重なり合った音声を含む会議の翻訳は、自動音声認識(ASR)の最も困難な問題の1つです。
本稿では,SOT(シリアライズ・アウトプット・トレーニング)ベースのマルチストーカーASRを事前に訓練する2段階のアプローチを広く検討する。
AMI-SDMトレーニングデータの70時間の微調整により,SOT ASRモデルはAMI-SDM評価セットに対して21.2%の単語誤り率(WER)を達成する。
論文 参考訳(メタデータ) (2021-03-31T02:43:32Z) - Hypothesis Stitcher for End-to-End Speaker-attributed ASR on Long-form
Multi-talker Recordings [42.17790794610591]
近年, 話者カウント, 音声認識, 話者識別を共同で行うために, 話者適応型自動音声認識(SA-ASR)モデルが提案されている。
このモデルは,未知の話者数からなる単音重複音声に対して,低話者分散単語誤り率(SA-WER)を達成した。
E2E SA-ASRモデルがトレーニング中のサンプルよりもはるかに長い記録に有効かどうかはまだ調査されていない。
論文 参考訳(メタデータ) (2021-01-06T03:36:09Z) - Minimum Bayes Risk Training for End-to-End Speaker-Attributed ASR [39.36608236418025]
本研究では,話者分散最小ベイズリスク(SA-MBR)訓練法を提案し,学習データに対する話者分散単語誤り率(SA-WER)を最小化する。
LibriSpeechコーパスを用いた実験により、提案されたSA-MBRトレーニングはSA-MMI訓練モデルと比較してSA-WERを9.0%削減することが示された。
論文 参考訳(メタデータ) (2020-11-03T22:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。