論文の概要: Hypothesis Stitcher for End-to-End Speaker-attributed ASR on Long-form
Multi-talker Recordings
- arxiv url: http://arxiv.org/abs/2101.01853v1
- Date: Wed, 6 Jan 2021 03:36:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-11 08:23:57.485974
- Title: Hypothesis Stitcher for End-to-End Speaker-attributed ASR on Long-form
Multi-talker Recordings
- Title(参考訳): 長めのマルチトーカ記録における終端話者対応型ASRの仮説スティッチャ
- Authors: Xuankai Chang, Naoyuki Kanda, Yashesh Gaur, Xiaofei Wang, Zhong Meng,
Takuya Yoshioka
- Abstract要約: 近年, 話者カウント, 音声認識, 話者識別を共同で行うために, 話者適応型自動音声認識(SA-ASR)モデルが提案されている。
このモデルは,未知の話者数からなる単音重複音声に対して,低話者分散単語誤り率(SA-WER)を達成した。
E2E SA-ASRモデルがトレーニング中のサンプルよりもはるかに長い記録に有効かどうかはまだ調査されていない。
- 参考スコア(独自算出の注目度): 42.17790794610591
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An end-to-end (E2E) speaker-attributed automatic speech recognition (SA-ASR)
model was proposed recently to jointly perform speaker counting, speech
recognition and speaker identification. The model achieved a low
speaker-attributed word error rate (SA-WER) for monaural overlapped speech
comprising an unknown number of speakers. However, the E2E modeling approach is
susceptible to the mismatch between the training and testing conditions. It has
yet to be investigated whether the E2E SA-ASR model works well for recordings
that are much longer than samples seen during training. In this work, we first
apply a known decoding technique that was developed to perform single-speaker
ASR for long-form audio to our E2E SA-ASR task. Then, we propose a novel method
using a sequence-to-sequence model, called hypothesis stitcher. The model takes
multiple hypotheses obtained from short audio segments that are extracted from
the original long-form input, and it then outputs a fused single hypothesis. We
propose several architectural variations of the hypothesis stitcher model and
compare them with the conventional decoding methods. Experiments using
LibriSpeech and LibriCSS corpora show that the proposed method significantly
improves SA-WER especially for long-form multi-talker recordings.
- Abstract(参考訳): 近年, 話者カウント, 音声認識, 話者識別を共同で行うために, 話者適応型自動音声認識(SA-ASR)モデルが提案されている。
このモデルは未知の話者数からなる単音重複音声に対して低話者分散単語誤り率(SA-WER)を達成した。
しかしながら、E2Eモデリングアプローチは、トレーニングとテスト条件のミスマッチに影響を受けやすい。
E2E SA-ASRモデルがトレーニング中のサンプルよりもはるかに長い記録に有効かどうかはまだ調査されていない。
本研究では,E2E SA-ASRタスクに長めの音声に対して単一話者ASRを実行するために,まず既知の復号化手法を適用した。
そこで本研究では,仮説ステッチラーというシーケンス・ツー・シーケンスモデルを用いた新しい手法を提案する。
モデルは、元のロングフォーム入力から抽出された短い音声セグメントから得られた複数の仮説を取り、融合した単一仮説を出力する。
仮説ステッチラーモデルのアーキテクチャ的バリエーションをいくつか提案し,従来の復号法と比較する。
LibriSpeech と LibriCSS コーパスを用いた実験により,SA-WER は長めのマルチトーカ記録において顕著に向上した。
関連論文リスト
- One model to rule them all ? Towards End-to-End Joint Speaker
Diarization and Speech Recognition [50.055765860343286]
本稿では,共同話者ダイアリゼーションと音声認識のための新しい枠組みを提案する。
このフレームワークはSLIDARと呼ばれ、任意の長さの入力を処理でき、任意の数の話者を処理できる。
AMIコーパスからの単調録音実験により, 近接話者と遠距離話者の両方の発話シナリオにおける手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-10-02T23:03:30Z) - TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-08-21T01:52:01Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - Transcribe-to-Diarize: Neural Speaker Diarization for Unlimited Number
of Speakers using End-to-End Speaker-Attributed ASR [44.181755224118696]
Transcribe-to-Diarizeは、エンド・ツー・エンド(E2E)話者による自動音声認識(SA-ASR)を用いたニューラルスピーカーダイアリゼーションの新しいアプローチである。
提案手法は,話者数不明の場合に,既存の話者ダイアリゼーション法よりも高いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-10-07T02:48:49Z) - GANSpeech: Adversarial Training for High-Fidelity Multi-Speaker Speech
Synthesis [6.632254395574993]
GANSpeechは、非自己回帰型マルチスピーカTSモデルに対向訓練法を採用する高忠実度マルチスピーカTSモデルである。
主観的な聴取試験では、GANSpeechはベースラインのマルチスピーカーであるFastSpeechとFastSpeech2モデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-06-29T08:15:30Z) - Investigation of End-To-End Speaker-Attributed ASR for Continuous
Multi-Talker Recordings [40.99930744000231]
話者プロファイルが存在しないケースに対処することで、以前の作業を拡張します。
E2E SA-ASRモデルの内部話者表現を用いて話者カウントとクラスタリングを行う。
また,E2E SA-ASRトレーニングの基準ラベルの簡単な修正も提案する。
論文 参考訳(メタデータ) (2020-08-11T06:41:55Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。