論文の概要: End-to-End Speaker-Attributed ASR with Transformer
- arxiv url: http://arxiv.org/abs/2104.02128v1
- Date: Mon, 5 Apr 2021 19:54:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 13:57:23.986844
- Title: End-to-End Speaker-Attributed ASR with Transformer
- Title(参考訳): 変圧器を用いたエンドツーエンド話者分散ASR
- Authors: Naoyuki Kanda, Guoli Ye, Yashesh Gaur, Xiaofei Wang, Zhong Meng, Zhuo
Chen, Takuya Yoshioka
- Abstract要約: 本稿では,エンドツーエンド話者属性自動音声認識システムを提案する。
単調なマルチトーカー音声に対する話者カウント、音声認識、話者識別を共同で行う。
- 参考スコア(独自算出の注目度): 41.7739129773237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents our recent effort on end-to-end speaker-attributed
automatic speech recognition, which jointly performs speaker counting, speech
recognition and speaker identification for monaural multi-talker audio.
Firstly, we thoroughly update the model architecture that was previously
designed based on a long short-term memory (LSTM)-based attention encoder
decoder by applying transformer architectures. Secondly, we propose a speaker
deduplication mechanism to reduce speaker identification errors in highly
overlapped regions. Experimental results on the LibriSpeechMix dataset shows
that the transformer-based architecture is especially good at counting the
speakers and that the proposed model reduces the speaker-attributed word error
rate by 47% over the LSTM-based baseline. Furthermore, for the LibriCSS
dataset, which consists of real recordings of overlapped speech, the proposed
model achieves concatenated minimum-permutation word error rates of 11.9% and
16.3% with and without target speaker profiles, respectively, both of which are
the state-of-the-art results for LibriCSS with the monaural setting.
- Abstract(参考訳): 本稿では,複数話者音声を対象とした話者カウント,音声認識,話者識別を共同で行うエンド・ツー・エンド話者分散音声認識の取り組みについて述べる。
まず,long short-term memory (lstm)ベースのアテンションエンコーダデコーダに基づいて設計したモデルアーキテクチャをトランスフォーマアーキテクチャを適用して徹底的に更新する。
次に,高い重複領域における話者識別誤差を低減する話者重複機構を提案する。
LibriSpeechMixデータセットによる実験結果から,トランスフォーマーベースのアーキテクチャは話者のカウントに特に優れており,提案モデルにより,LSTMベースラインよりも話者対応語誤り率を47%削減できることがわかった。
さらに、重なり合う音声の実際の記録からなるLibriCSSデータセットに対して、提案モデルは、目標話者プロファイルと非対象話者プロファイルとの組み合わせで、11.9%と16.3%の連結最小置換単語誤り率を達成し、どちらもモノーラル設定によるLibriCSSの最先端結果である。
関連論文リスト
- One model to rule them all ? Towards End-to-End Joint Speaker
Diarization and Speech Recognition [50.055765860343286]
本稿では,共同話者ダイアリゼーションと音声認識のための新しい枠組みを提案する。
このフレームワークはSLIDARと呼ばれ、任意の長さの入力を処理でき、任意の数の話者を処理できる。
AMIコーパスからの単調録音実験により, 近接話者と遠距離話者の両方の発話シナリオにおける手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-10-02T23:03:30Z) - Lexical Speaker Error Correction: Leveraging Language Models for Speaker
Diarization Error Correction [4.409889336732851]
話者ダイアリゼーション (SD) は通常、認識された単語に話者ラベルを登録するために自動音声認識 (ASR) システムで使用される。
このアプローチは、特に話者回転と話者重複領域に関する話者誤差を引き起こす可能性がある。
語彙情報を用いた第2パス話者誤り訂正システムを提案する。
論文 参考訳(メタデータ) (2023-06-15T17:47:41Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech [62.95422526044178]
マルチスピーカTSモデルのトレーニングアルゴリズムとして,MAML(Model Agnostic Meta-Learning)を用いる。
その結果,Meta-TTSは話者適応ベースラインよりも適応ステップが少ない少数のサンプルから高い話者類似性音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-07T09:53:31Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - Investigation of Speaker-adaptation methods in Transformer based ASR [8.637110868126548]
本稿では,トランスフォーマモデルを用いて音声認識性能の向上を図りながら,エンコーダ入力に話者情報を組み込む方法について検討する。
話者情報を各話者に対する話者埋め込み形式で提示する。
モデルに話者埋め込みを組み込むことにより,ベースライン上の単語誤り率を改善する。
論文 参考訳(メタデータ) (2020-08-07T16:09:03Z) - Self-attention encoding and pooling for speaker recognition [16.96341561111918]
本研究では,非固定長音声音声の識別話者埋め込みを実現するために,タンデム自己認識・プーリング(SAEP)機構を提案する。
SAEPは、テキストに依存しない話者検証に使用される話者埋め込みに、短時間の話者スペクトル特徴を符号化する。
このアプローチをVoxCeleb1と2のデータセットで評価した。
論文 参考訳(メタデータ) (2020-08-03T09:31:27Z) - Joint Speaker Counting, Speech Recognition, and Speaker Identification
for Overlapped Speech of Any Number of Speakers [38.3469744871394]
エンドツーエンドの話者分散音声認識モデルを提案する。
重複した音声における話者カウント、音声認識、話者識別を統一する。
論文 参考訳(メタデータ) (2020-06-19T02:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。