論文の概要: Large-Scale Pre-Training of End-to-End Multi-Talker ASR for Meeting
Transcription with Single Distant Microphone
- arxiv url: http://arxiv.org/abs/2103.16776v1
- Date: Wed, 31 Mar 2021 02:43:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-01 14:25:12.621652
- Title: Large-Scale Pre-Training of End-to-End Multi-Talker ASR for Meeting
Transcription with Single Distant Microphone
- Title(参考訳): 単一マイクロホンを用いたエンド・ツー・エンドマルチトーカーasrの大規模事前学習
- Authors: Naoyuki Kanda, Guoli Ye, Yu Wu, Yashesh Gaur, Xiaofei Wang, Zhong
Meng, Zhuo Chen, Takuya Yoshioka
- Abstract要約: 単一の遠距離マイクロホン(SDM)で重なり合った音声を含む会議の翻訳は、自動音声認識(ASR)の最も困難な問題の1つです。
本稿では,SOT(シリアライズ・アウトプット・トレーニング)ベースのマルチストーカーASRを事前に訓練する2段階のアプローチを広く検討する。
AMI-SDMトレーニングデータの70時間の微調整により,SOT ASRモデルはAMI-SDM評価セットに対して21.2%の単語誤り率(WER)を達成する。
- 参考スコア(独自算出の注目度): 43.77139614544301
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transcribing meetings containing overlapped speech with only a single distant
microphone (SDM) has been one of the most challenging problems for automatic
speech recognition (ASR). While various approaches have been proposed, all
previous studies on the monaural overlapped speech recognition problem were
based on either simulation data or small-scale real data. In this paper, we
extensively investigate a two-step approach where we first pre-train a
serialized output training (SOT)-based multi-talker ASR by using large-scale
simulation data and then fine-tune the model with a small amount of real
meeting data. Experiments are conducted by utilizing 75 thousand (K) hours of
our internal single-talker recording to simulate a total of 900K hours of
multi-talker audio segments for supervised pre-training. With fine-tuning on
the 70 hours of the AMI-SDM training data, our SOT ASR model achieves a word
error rate (WER) of 21.2% for the AMI-SDM evaluation set while automatically
counting speakers in each test segment. This result is not only significantly
better than the previous state-of-the-art WER of 36.4% with oracle utterance
boundary information but also better than a result by a similarly fine-tuned
single-talker ASR model applied to beamformed audio.
- Abstract(参考訳): 1つの遠隔マイクロホン(SDM)で重なり合う音声を含む会議を翻訳することは、音声認識(ASR)において最も難しい問題の一つである。
様々なアプローチが提案されているが、従来のモナウラル重なり音声認識問題の研究はすべてシミュレーションデータか小規模実データに基づいている。
本稿では,まず,大規模シミュレーションデータを用いてsot(serialized output training)ベースのマルチトーカasrを事前学習し,少量の実会議データを用いてモデルを微調整する2段階の手法を徹底的に検討する。
内部シングルトーカー記録の7万時間(K時間)を利用して、教師付き事前学習のための合計900K時間のマルチトーカー音声セグメントをシミュレートして実験を行った。
SOT ASRモデルは,AMI-SDMトレーニングデータの70時間の微調整により,テストセグメント毎に話者を自動的に数えながら,AMI-SDM評価セットの単語誤り率(WER)を21.2%向上させる。
この結果は、従来の36.4%の最先端のWERのオラクル発話境界情報よりもはるかに優れているだけでなく、ビームフォーミングオーディオに適用された同様の微調整シングルトーカーASRモデルによる結果よりも優れている。
関連論文リスト
- Joint Beamforming and Speaker-Attributed ASR for Real Distant-Microphone Meeting Transcription [18.151884620928936]
最先端のエンドツーエンド話者分散自動音声認識(SA-ASR)アーキテクチャは、マルチチャネルノイズと残響低減フロントエンドを欠いている。
そこで本研究では, 実聴記録のためのビームフォーミング法とSA-ASR法を提案する。
論文 参考訳(メタデータ) (2024-10-29T08:17:31Z) - A Multimodal Approach to Device-Directed Speech Detection with Large Language Models [41.37311266840156]
我々は、ユーザが各コマンドをトリガーフレーズで開始しなければならないという要求を省くことが可能かどうかを探る。
音声波形から得られた音響情報のみを用いて分類器を訓練する。
本研究では,1-best仮説などの自動音声認識システムのデコーダ出力を,大規模言語モデルへの入力特徴とみなす。
論文 参考訳(メタデータ) (2024-03-21T14:44:03Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Multimodal Data and Resource Efficient Device-Directed Speech Detection
with Large Foundation Models [43.155061160275196]
トリガーフレーズを不要にすることで,仮想アシスタントとの対話をより自然なものにする可能性を探る。
我々の目標は、デバイスマイクが記録したストリーミングオーディオから得られる信号に基づいて、仮想アシスタントに対処するかどうかを判断することである。
本稿では,音声認識システムからの1-best仮説とデコーダ信号と,オーディオエンコーダからの音響表現を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-06T17:29:03Z) - Adapting Multi-Lingual ASR Models for Handling Multiple Talkers [63.151811561972515]
最先端の大規模音声モデル(USM)は、複数のドメインや言語にまたがる適切な自動音声認識(ASR)性能を示す。
マルチストーカーASRに対するUSMの適応手法を提案する。
まず,マルチストーカーASRと発話タイムスタンプ予測を共同で行うシリアライズ出力訓練の強化版を開発する。
論文 参考訳(メタデータ) (2023-05-30T05:05:52Z) - An Experimental Study on Private Aggregation of Teacher Ensemble
Learning for End-to-End Speech Recognition [51.232523987916636]
差分プライバシー(DP)は、プライバシーデータにノイズのある歪みを課すことで、深層モデルのトレーニングに使用されるユーザー情報を保護するための1つのデータ保護手段である。
本研究では、PATE学習を動的パターン、すなわち音声を扱うように拡張し、音響データの漏洩を避けるために、ASRに関する最初の実験を行う。
論文 参考訳(メタデータ) (2022-10-11T16:55:54Z) - The RoyalFlush System of Speech Recognition for M2MeT Challenge [5.863625637354342]
本稿では,M2MeTチャレンジにおけるマルチスピーカ自動音声認識(ASR)の追跡のためのRoyalFlushシステムについて述べる。
大規模シミュレーションデータを用いたシリアライズアウトプットトレーニング(SOT)に基づくマルチスピーカASRシステムを採用した。
我々のシステムでは、検証セットでは12.22%の絶対文字誤り率(CER)が、テストセットでは12.11%が削減された。
論文 参考訳(メタデータ) (2022-02-03T14:38:26Z) - BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning
for Automatic Speech Recognition [126.5605160882849]
事前学習,自己学習,モデルサイズのスケールアップの組み合わせによって,データの効率が大幅に向上することがわかった。
本稿では,大規模な下流タスクに対して,事前学習モデルと自己学習モデルを使用することによって得られる普遍的なメリットについて報告する。
論文 参考訳(メタデータ) (2021-09-27T17:59:19Z) - A Comparative Study of Modular and Joint Approaches for
Speaker-Attributed ASR on Monaural Long-Form Audio [45.04646762560459]
話者分散自動音声認識(SA-ASR)は、マルチトーカー録音から「誰が何を話したか」を識別するタスクである。
共同最適化を考えると、最近、シミュレーションデータに有望な結果をもたらすエンド・ツー・エンド(E2E)SA-ASRモデルが提案されている。
本報告では,SA-ASRに対するモジュラーおよびジョイントアプローチの比較を行った。
論文 参考訳(メタデータ) (2021-07-06T19:36:48Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。