論文の概要: Speech Recognition and Multi-Speaker Diarization of Long Conversations
- arxiv url: http://arxiv.org/abs/2005.08072v2
- Date: Thu, 5 Nov 2020 03:28:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 14:09:50.786902
- Title: Speech Recognition and Multi-Speaker Diarization of Long Conversations
- Title(参考訳): 長文会話の音声認識と複数話者ダイアリゼーション
- Authors: Huanru Henry Mao, Shuyang Li, Julian McAuley and Garrison Cottrell
- Abstract要約: 音声認識モデルは、話者ラベル付きリッチな会話書き起こしを作成するために、伝統的に別々に訓練されてきた。
近年の進歩により、共同ASRとSDモデルは、単語ダイアリゼーション性能を向上させるために、音声-語彙間距離を活用することができることが示されている。
我々は、これらのアプローチをよりよく比較するために、週刊の『The American Life』ラジオ番組から収集された時間長ポッドキャストのベンチマークを新たに導入する。
- 参考スコア(独自算出の注目度): 5.3342657236446165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech recognition (ASR) and speaker diarization (SD) models have
traditionally been trained separately to produce rich conversation transcripts
with speaker labels. Recent advances have shown that joint ASR and SD models
can learn to leverage audio-lexical inter-dependencies to improve word
diarization performance. We introduce a new benchmark of hour-long podcasts
collected from the weekly This American Life radio program to better compare
these approaches when applied to extended multi-speaker conversations. We find
that training separate ASR and SD models perform better when utterance
boundaries are known but otherwise joint models can perform better. To handle
long conversations with unknown utterance boundaries, we introduce a striding
attention decoding algorithm and data augmentation techniques which, combined
with model pre-training, improves ASR and SD.
- Abstract(参考訳): 音声認識(ASR)と話者ダイアリゼーション(SD)モデルは伝統的に、話者ラベルとリッチな会話書き起こしを生成するために別々に訓練されてきた。
近年の進歩により、asrとsdのジョイントモデルが単語ダイアリゼーション性能を改善するために音声語彙間依存性を活用できることが示されている。
我々は,週刊のthis american life radio programから収集された1時間おきのポッドキャストの新しいベンチマークを導入し,マルチスピーカー会話に適用した場合のこれらのアプローチをよりよく比較する。
発話境界が分かっている場合、分離したasrとsdモデルをトレーニングすることで、よりよいパフォーマンスが得られることが分かりました。
未知の発話境界との長時間の会話を処理するために,モデル事前学習と組み合わせたストレートアテンションデコーディングアルゴリズムとデータ拡張手法を導入し,ASRとSDを改善した。
関連論文リスト
- Advancing Multi-talker ASR Performance with Large Language Models [48.52252970956368]
対話シナリオにおける複数話者からの重複音声認識は、音声認識(ASR)において最も難しい問題の一つである。
本稿では,事前学習した音声エンコーダとLLMを利用したマルチストーカーASRのためのSOTアプローチを提案する。
提案手法は,シミュレーションデータセットLibriMixにおける従来のAEDに基づく手法を超越し,実世界のデータセットAMIの評価セット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-08-30T17:29:25Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - SPECTRUM: Speaker-Enhanced Pre-Training for Long Dialogue Summarization [48.284512017469524]
マルチターン対話は、その長さとターンテイクな会話の存在によって特徴づけられる。
伝統的な言語モデルは、しばしばそれらの対話の特徴を通常のテキストとして扱うことによって見落としている。
長文対話要約のための話者強化事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-31T04:50:00Z) - Adapting Multi-Lingual ASR Models for Handling Multiple Talkers [63.151811561972515]
最先端の大規模音声モデル(USM)は、複数のドメインや言語にまたがる適切な自動音声認識(ASR)性能を示す。
マルチストーカーASRに対するUSMの適応手法を提案する。
まず,マルチストーカーASRと発話タイムスタンプ予測を共同で行うシリアライズ出力訓練の強化版を開発する。
論文 参考訳(メタデータ) (2023-05-30T05:05:52Z) - Simulating realistic speech overlaps improves multi-talker ASR [36.39193360559079]
本稿では,複数話者の重なり合う音声を現実的な音声重なりでシミュレートする改良手法を提案する。
この表現により、N-gramのような統計言語モデルに基づいて、実際の会話から重なり合う音声パターンを学習することができる。
実験では,提案手法を用いて学習したマルチストーカーASRモデルを用いて,複数データセット間の単語誤り率を一貫した改善を行った。
論文 参考訳(メタデータ) (2022-10-27T18:29:39Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - Hypothesis Stitcher for End-to-End Speaker-attributed ASR on Long-form
Multi-talker Recordings [42.17790794610591]
近年, 話者カウント, 音声認識, 話者識別を共同で行うために, 話者適応型自動音声認識(SA-ASR)モデルが提案されている。
このモデルは,未知の話者数からなる単音重複音声に対して,低話者分散単語誤り率(SA-WER)を達成した。
E2E SA-ASRモデルがトレーニング中のサンプルよりもはるかに長い記録に有効かどうかはまだ調査されていない。
論文 参考訳(メタデータ) (2021-01-06T03:36:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。