論文の概要: Directed Speech Separation for Automatic Speech Recognition of Long Form
Conversational Speech
- arxiv url: http://arxiv.org/abs/2112.05863v1
- Date: Fri, 10 Dec 2021 23:07:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 16:29:03.585605
- Title: Directed Speech Separation for Automatic Speech Recognition of Long Form
Conversational Speech
- Title(参考訳): 長文会話音声の自動音声認識のための指示音声分離
- Authors: Rohit Paturi, Sundararajan Srinivasan, Katrin Kirchhoff
- Abstract要約: 混合信号から直接抽出した話者埋め込みに基づいて訓練された話者条件付きセパレータを提案する。
また,会話データに対する単語誤り率 (WER) の大幅な改善を実現した。
- 参考スコア(独自算出の注目度): 10.291482850329892
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many of the recent advances in speech separation are primarily aimed at
synthetic mixtures of short audio utterances with high degrees of overlap.
These datasets significantly differ from the real conversational data and
hence, the models trained and evaluated on these datasets do not generalize to
real conversational scenarios. Another issue with using most of these models
for long form speech is the nondeterministic ordering of separated speech
segments due to either unsupervised clustering for time-frequency masks or
Permutation Invariant training (PIT) loss. This leads to difficulty in
accurately stitching homogenous speaker segments for downstream tasks like
Automatic Speech Recognition (ASR). In this paper, we propose a speaker
conditioned separator trained on speaker embeddings extracted directly from the
mixed signal. We train this model using a directed loss which regulates the
order of the separated segments. With this model, we achieve significant
improvements on Word error rate (WER) for real conversational data without the
need for an additional re-stitching step.
- Abstract(参考訳): 最近の音声分離の進歩の多くは、主に高い重なりを持つ短い音声発話の合成混合物を対象としている。
これらのデータセットは実際の会話データと大きく異なるため、これらのデータセットでトレーニングおよび評価されたモデルは実際の会話シナリオに一般化しない。
長い形の音声にこれらのモデルを使用する別の問題は、時間周波数マスクの教師なしクラスタリングまたは置換不変訓練(pit)損失による分離音声セグメントの非決定的順序付けである。
これにより、ASR(Automatic Speech Recognition)のような下流タスクにおいて、均質な話者セグメントを正確に縫合することが困難になる。
本稿では,混合信号から直接抽出した話者埋め込みを訓練した話者条件付きセパレータを提案する。
分離セグメントの順序を規制する指向的損失を用いて,このモデルをトレーニングする。
このモデルでは, 単語誤り率(WER)を, 追加の修正ステップを必要とせずに, 実際の会話データに対して大幅に改善する。
関連論文リスト
- Online speaker diarization of meetings guided by speech separation [0.0]
重複した音声は、話者ダイアリゼーションシステムに問題があることで知られている。
長時間録音のオンライン話者ダイアリゼーションに適した音声分離誘導ダイアリゼーション方式を提案する。
論文 参考訳(メタデータ) (2024-01-30T09:09:22Z) - Improved Long-Form Speech Recognition by Jointly Modeling the Primary
and Non-primary Speakers [35.32552447347255]
音声中の異なる話者群と標準転写トークンを同時にモデル化する新しい手法を提案する。
話者はプライマリドメインと非プライマリドメインとしてグループ化され、アプリケーションドメインを接続する。
この改善されたモデルは、追加のトレーニングデータも追加のトレーニングや推論コストも必要としない。
論文 参考訳(メタデータ) (2023-12-18T11:47:39Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-08-21T01:52:01Z) - Monaural Multi-Speaker Speech Separation Using Efficient Transformer
Model [0.0]
月次多話者音声分離」はトランスフォーマーアーキテクチャとその効率的な形式に基づく音声分離モデルを示す。
このモデルは、多様な話者の発話を含むLibriMixデータセットでトレーニングされている。
論文 参考訳(メタデータ) (2023-07-29T15:10:46Z) - Zero-shot text-to-speech synthesis conditioned using self-supervised
speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。
この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文 参考訳(メタデータ) (2023-04-24T10:15:58Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z) - Integrating end-to-end neural and clustering-based diarization: Getting
the best of both worlds [71.36164750147827]
クラスタリングに基づくアプローチでは、xベクトルのような話者埋め込みをクラスタリングすることで、話者ラベルを音声領域に割り当てる。
EEND(End-to-end Neural Diarization)は、ニューラルネットワークを使用してダイアリゼーションラベルを直接予測する。
重なり合う音声と、任意の数の話者を含む長い録音のために、単純だが効果的なハイブリッドダイアリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-26T06:33:02Z) - End-to-End Neural Diarization: Reformulating Speaker Diarization as
Simple Multi-label Classification [45.38809571153867]
本稿では,ニューラルネットワークが直接話者ダイアリゼーション結果を出力するエンド・ツー・エンド・ニューラルダイアリゼーション(EEND)を提案する。
話者セグメントラベルとマルチスピーカ記録を連携させることにより,本モデルは実際の会話に容易に適応できる。
論文 参考訳(メタデータ) (2020-02-24T14:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。