論文の概要: Minimum Bayes Risk Training for End-to-End Speaker-Attributed ASR
- arxiv url: http://arxiv.org/abs/2011.02921v1
- Date: Tue, 3 Nov 2020 22:28:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 05:57:07.811334
- Title: Minimum Bayes Risk Training for End-to-End Speaker-Attributed ASR
- Title(参考訳): エンド・ツー・エンド話者型ASRにおける最小ベイズリスクトレーニング
- Authors: Naoyuki Kanda, Zhong Meng, Liang Lu, Yashesh Gaur, Xiaofei Wang, Zhuo
Chen, Takuya Yoshioka
- Abstract要約: 本研究では,話者分散最小ベイズリスク(SA-MBR)訓練法を提案し,学習データに対する話者分散単語誤り率(SA-WER)を最小化する。
LibriSpeechコーパスを用いた実験により、提案されたSA-MBRトレーニングはSA-MMI訓練モデルと比較してSA-WERを9.0%削減することが示された。
- 参考スコア(独自算出の注目度): 39.36608236418025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, an end-to-end speaker-attributed automatic speech recognition (E2E
SA-ASR) model was proposed as a joint model of speaker counting, speech
recognition and speaker identification for monaural overlapped speech. In the
previous study, the model parameters were trained based on the
speaker-attributed maximum mutual information (SA-MMI) criterion, with which
the joint posterior probability for multi-talker transcription and speaker
identification are maximized over training data. Although SA-MMI training
showed promising results for overlapped speech consisting of various numbers of
speakers, the training criterion was not directly linked to the final
evaluation metric, i.e., speaker-attributed word error rate (SA-WER). In this
paper, we propose a speaker-attributed minimum Bayes risk (SA-MBR) training
method where the parameters are trained to directly minimize the expected
SA-WER over the training data. Experiments using the LibriSpeech corpus show
that the proposed SA-MBR training reduces the SA-WER by 9.0 % relative compared
with the SA-MMI-trained model.
- Abstract(参考訳): 近年,単声重畳音声に対する話者カウント,音声認識,話者識別の結合モデルとして,エンド・ツー・エンド話者分散自動音声認識(E2E SA-ASR)モデルが提案されている。
前報では, 話者対応最大相互情報(SA-MMI)基準に基づいて, モデルパラメータを訓練し, 学習データを用いて, 多話者転写と話者識別の結合後確率を最大化する。
SA-MMI訓練は, 話者数による重なり合う音声に対して有望な結果を示したが, トレーニング基準は最終評価基準, すなわち話者対応単語誤り率(SA-WER)に直接関連しない。
本稿では,学習データ上で想定されるsa-werを直接最小化するようにパラメータを訓練する,話者帰属最小ベイズリスク(sa-mbr)トレーニング手法を提案する。
LibriSpeechコーパスを用いた実験により、提案されたSA-MBRトレーニングはSA-MMI訓練モデルと比較してSA-WERを9.0%削減することが示された。
関連論文リスト
- Improving Speaker Assignment in Speaker-Attributed ASR for Real Meeting Applications [18.151884620928936]
本稿では,実生活シナリオにおける話者分散ASR(SA-ASR)システムの最適化を目的とした新しい研究を提案する。
本稿では,Voice Activity Detection (VAD), Speaker Diarization (SD), SA-ASRを含む実生活用パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-11T10:11:29Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z) - Transcribe-to-Diarize: Neural Speaker Diarization for Unlimited Number
of Speakers using End-to-End Speaker-Attributed ASR [44.181755224118696]
Transcribe-to-Diarizeは、エンド・ツー・エンド(E2E)話者による自動音声認識(SA-ASR)を用いたニューラルスピーカーダイアリゼーションの新しいアプローチである。
提案手法は,話者数不明の場合に,既存の話者ダイアリゼーション法よりも高いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-10-07T02:48:49Z) - A Comparative Study of Modular and Joint Approaches for
Speaker-Attributed ASR on Monaural Long-Form Audio [45.04646762560459]
話者分散自動音声認識(SA-ASR)は、マルチトーカー録音から「誰が何を話したか」を識別するタスクである。
共同最適化を考えると、最近、シミュレーションデータに有望な結果をもたらすエンド・ツー・エンド(E2E)SA-ASRモデルが提案されている。
本報告では,SA-ASRに対するモジュラーおよびジョイントアプローチの比較を行った。
論文 参考訳(メタデータ) (2021-07-06T19:36:48Z) - Hypothesis Stitcher for End-to-End Speaker-attributed ASR on Long-form
Multi-talker Recordings [42.17790794610591]
近年, 話者カウント, 音声認識, 話者識別を共同で行うために, 話者適応型自動音声認識(SA-ASR)モデルが提案されている。
このモデルは,未知の話者数からなる単音重複音声に対して,低話者分散単語誤り率(SA-WER)を達成した。
E2E SA-ASRモデルがトレーニング中のサンプルよりもはるかに長い記録に有効かどうかはまだ調査されていない。
論文 参考訳(メタデータ) (2021-01-06T03:36:09Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - Investigation of End-To-End Speaker-Attributed ASR for Continuous
Multi-Talker Recordings [40.99930744000231]
話者プロファイルが存在しないケースに対処することで、以前の作業を拡張します。
E2E SA-ASRモデルの内部話者表現を用いて話者カウントとクラスタリングを行う。
また,E2E SA-ASRトレーニングの基準ラベルの簡単な修正も提案する。
論文 参考訳(メタデータ) (2020-08-11T06:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。