論文の概要: One model to rule them all ? Towards End-to-End Joint Speaker
Diarization and Speech Recognition
- arxiv url: http://arxiv.org/abs/2310.01688v1
- Date: Mon, 2 Oct 2023 23:03:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 18:29:56.921349
- Title: One model to rule them all ? Towards End-to-End Joint Speaker
Diarization and Speech Recognition
- Title(参考訳): すべてを支配する一つのモデル?
エンドツーエンド共同話者ダイアリゼーションと音声認識に向けて
- Authors: Samuele Cornell, Jee-weon Jung, Shinji Watanabe, Stefano Squartini
- Abstract要約: 本稿では,共同話者ダイアリゼーションと音声認識のための新しい枠組みを提案する。
このフレームワークはSLIDARと呼ばれ、任意の長さの入力を処理でき、任意の数の話者を処理できる。
AMIコーパスからの単調録音実験により, 近接話者と遠距離話者の両方の発話シナリオにおける手法の有効性が確認された。
- 参考スコア(独自算出の注目度): 50.055765860343286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel framework for joint speaker diarization (SD) and
automatic speech recognition (ASR), named SLIDAR (sliding-window
diarization-augmented recognition). SLIDAR can process arbitrary length inputs
and can handle any number of speakers, effectively solving ``who spoke what,
when'' concurrently. SLIDAR leverages a sliding window approach and consists of
an end-to-end diarization-augmented speech transcription (E2E DAST) model which
provides, locally, for each window: transcripts, diarization and speaker
embeddings. The E2E DAST model is based on an encoder-decoder architecture and
leverages recent techniques such as serialized output training and
``Whisper-style" prompting. The local outputs are then combined to get the
final SD+ASR result by clustering the speaker embeddings to get global speaker
identities. Experiments performed on monaural recordings from the AMI corpus
confirm the effectiveness of the method in both close-talk and far-field speech
scenarios.
- Abstract(参考訳): 本稿では,slidar (sliding-window diarization-augmented recognition) と呼ばれる話者ダイアリゼーション(sd)と自動音声認識(asr)の新たな枠組みを提案する。
SLIDARは任意の長さの入力を処理でき、任意の数の話者を処理できる。
SLIDARは、スライディングウインドウアプローチを活用し、各ウインドウに対してローカルに書き起こし、ダイアリゼーション、ダイアリゼーション、話者埋め込みを提供するエンドツーエンドダイアリゼーション拡張音声書き起こし(E2E DAST)モデルで構成される。
E2E DASTモデルはエンコーダ・デコーダアーキテクチャに基づいており、シリアライズされた出力トレーニングや ``Whisper-style' プロンプトといった最近の技術を活用している。
ローカル出力は、グローバルな話者識別を得るために話者埋め込みをクラスタ化することで、最終的なSD+ASR結果を得るために結合される。
AMIコーパスからの単調録音実験により, 近接話者と遠距離話者の両方の発話シナリオにおける手法の有効性が確認された。
関連論文リスト
- Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-08-21T01:52:01Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Joint Speech Recognition and Audio Captioning [37.205642807313545]
室内と屋外の両方で録音された音声サンプルは、しばしば二次音源で汚染される。
自動音声キャプション(AAC)の進展する分野と、徹底的に研究された自動音声認識(ASR)を一体化することを目的としている。
本稿では,ASRタスクとAACタスクのエンドツーエンド共同モデリングのためのいくつかのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-03T04:42:43Z) - Transcribe-to-Diarize: Neural Speaker Diarization for Unlimited Number
of Speakers using End-to-End Speaker-Attributed ASR [44.181755224118696]
Transcribe-to-Diarizeは、エンド・ツー・エンド(E2E)話者による自動音声認識(SA-ASR)を用いたニューラルスピーカーダイアリゼーションの新しいアプローチである。
提案手法は,話者数不明の場合に,既存の話者ダイアリゼーション法よりも高いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-10-07T02:48:49Z) - Investigation of Speaker-adaptation methods in Transformer based ASR [8.637110868126548]
本稿では,トランスフォーマモデルを用いて音声認識性能の向上を図りながら,エンコーダ入力に話者情報を組み込む方法について検討する。
話者情報を各話者に対する話者埋め込み形式で提示する。
モデルに話者埋め込みを組み込むことにより,ベースライン上の単語誤り率を改善する。
論文 参考訳(メタデータ) (2020-08-07T16:09:03Z) - Joint Speaker Counting, Speech Recognition, and Speaker Identification
for Overlapped Speech of Any Number of Speakers [38.3469744871394]
エンドツーエンドの話者分散音声認識モデルを提案する。
重複した音声における話者カウント、音声認識、話者識別を統一する。
論文 参考訳(メタデータ) (2020-06-19T02:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。