論文の概要: Investigation of End-To-End Speaker-Attributed ASR for Continuous
Multi-Talker Recordings
- arxiv url: http://arxiv.org/abs/2008.04546v1
- Date: Tue, 11 Aug 2020 06:41:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 12:13:02.849629
- Title: Investigation of End-To-End Speaker-Attributed ASR for Continuous
Multi-Talker Recordings
- Title(参考訳): 連続マルチ話者記録のためのエンドツーエンド話者分散ASRの検討
- Authors: Naoyuki Kanda, Xuankai Chang, Yashesh Gaur, Xiaofei Wang, Zhong Meng,
Zhuo Chen, Takuya Yoshioka
- Abstract要約: 話者プロファイルが存在しないケースに対処することで、以前の作業を拡張します。
E2E SA-ASRモデルの内部話者表現を用いて話者カウントとクラスタリングを行う。
また,E2E SA-ASRトレーニングの基準ラベルの簡単な修正も提案する。
- 参考スコア(独自算出の注目度): 40.99930744000231
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, an end-to-end (E2E) speaker-attributed automatic speech recognition
(SA-ASR) model was proposed as a joint model of speaker counting, speech
recognition and speaker identification for monaural overlapped speech. It
showed promising results for simulated speech mixtures consisting of various
numbers of speakers. However, the model required prior knowledge of speaker
profiles to perform speaker identification, which significantly limited the
application of the model. In this paper, we extend the prior work by addressing
the case where no speaker profile is available. Specifically, we perform
speaker counting and clustering by using the internal speaker representations
of the E2E SA-ASR model to diarize the utterances of the speakers whose
profiles are missing from the speaker inventory. We also propose a simple
modification to the reference labels of the E2E SA-ASR training which helps
handle continuous multi-talker recordings well. We conduct a comprehensive
investigation of the original E2E SA-ASR and the proposed method on the
monaural LibriCSS dataset. Compared to the original E2E SA-ASR with relevant
speaker profiles, the proposed method achieves a close performance without any
prior speaker knowledge. We also show that the source-target attention in the
E2E SA-ASR model provides information about the start and end times of the
hypotheses.
- Abstract(参考訳): 近年,単音重複音声の話者カウント,音声認識,話者識別の結合モデルとして,エンドツーエンド(e2e)話者属性自動音声認識(sa-asr)モデルが提案されている。
様々な話者からなる模擬混合音声に対する有望な結果を示した。
しかし, 話者識別を行うためには, 話者プロファイルの事前知識が必要であり, モデルの適用を著しく制限した。
本稿では,話者プロファイルが存在しない場合に対処することで,先行作業を拡張する。
具体的には、E2E SA-ASRモデルの内部話者表現を用いて話者数とクラスタリングを行い、話者在庫からプロファイルが欠落している話者の発話をダイアリゼーションする。
また、e2e sa-asrトレーニングの参照ラベルを簡易に修正し、連続マルチトーカ記録をうまく処理することを提案する。
提案手法は,もともとのE2E SA-ASRとモナウラルLibriCSSデータセットに関する包括的な研究である。
元のE2E SA-ASRと関連する話者プロファイルを比較すると,提案手法は事前の話者知識を必要とせずに近い性能が得られる。
また、E2E SA-ASRモデルにおけるソースターゲットの注意は、仮説の開始時刻と終了時刻に関する情報を提供する。
関連論文リスト
- Improving Speaker Assignment in Speaker-Attributed ASR for Real Meeting Applications [18.151884620928936]
本稿では,実生活シナリオにおける話者分散ASR(SA-ASR)システムの最適化を目的とした新しい研究を提案する。
本稿では,Voice Activity Detection (VAD), Speaker Diarization (SD), SA-ASRを含む実生活用パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-11T10:11:29Z) - One model to rule them all ? Towards End-to-End Joint Speaker
Diarization and Speech Recognition [50.055765860343286]
本稿では,共同話者ダイアリゼーションと音声認識のための新しい枠組みを提案する。
このフレームワークはSLIDARと呼ばれ、任意の長さの入力を処理でき、任意の数の話者を処理できる。
AMIコーパスからの単調録音実験により, 近接話者と遠距離話者の両方の発話シナリオにおける手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-10-02T23:03:30Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - Transcribe-to-Diarize: Neural Speaker Diarization for Unlimited Number
of Speakers using End-to-End Speaker-Attributed ASR [44.181755224118696]
Transcribe-to-Diarizeは、エンド・ツー・エンド(E2E)話者による自動音声認識(SA-ASR)を用いたニューラルスピーカーダイアリゼーションの新しいアプローチである。
提案手法は,話者数不明の場合に,既存の話者ダイアリゼーション法よりも高いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-10-07T02:48:49Z) - Hypothesis Stitcher for End-to-End Speaker-attributed ASR on Long-form
Multi-talker Recordings [42.17790794610591]
近年, 話者カウント, 音声認識, 話者識別を共同で行うために, 話者適応型自動音声認識(SA-ASR)モデルが提案されている。
このモデルは,未知の話者数からなる単音重複音声に対して,低話者分散単語誤り率(SA-WER)を達成した。
E2E SA-ASRモデルがトレーニング中のサンプルよりもはるかに長い記録に有効かどうかはまだ調査されていない。
論文 参考訳(メタデータ) (2021-01-06T03:36:09Z) - Minimum Bayes Risk Training for End-to-End Speaker-Attributed ASR [39.36608236418025]
本研究では,話者分散最小ベイズリスク(SA-MBR)訓練法を提案し,学習データに対する話者分散単語誤り率(SA-WER)を最小化する。
LibriSpeechコーパスを用いた実験により、提案されたSA-MBRトレーニングはSA-MMI訓練モデルと比較してSA-WERを9.0%削減することが示された。
論文 参考訳(メタデータ) (2020-11-03T22:28:57Z) - Speaker Separation Using Speaker Inventories and Estimated Speech [78.57067876891253]
話者在庫(SSUSI)と推定音声(SSUES)を用いた話者分離を提案する。
置換不変訓練(PIT)と音声抽出の利点を組み合わせることで、SSUSIは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-20T18:15:45Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。