論文の概要: Multi-user VoiceFilter-Lite via Attentive Speaker Embedding
- arxiv url: http://arxiv.org/abs/2107.01201v1
- Date: Fri, 2 Jul 2021 17:45:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-05 12:39:50.739487
- Title: Multi-user VoiceFilter-Lite via Attentive Speaker Embedding
- Title(参考訳): Attentive Speaker Embedding を用いたマルチユーザボイスフィルターライト
- Authors: Rajeev Rikhye, Quan Wang, Qiao Liang, Yanzhang He, Ian McGraw
- Abstract要約: 本研究では,話者条件付き音声モデルに対して,任意の数の登録ユーザをひとつのパスでサポートできるようにするソリューションを提案する。
これは、複数の話者埋め込みに注意機構を用いて単一の注意埋め込みを計算することで達成される。
最大4人の登録ユーザを持つマルチユーザVoiceFilter-Liteは、音声認識と話者認証エラーを大幅に削減することができる。
- 参考スコア(独自算出の注目度): 11.321747759474164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a solution to allow speaker conditioned speech
models, such as VoiceFilter-Lite, to support an arbitrary number of enrolled
users in a single pass. This is achieved by using an attention mechanism on
multiple speaker embeddings to compute a single attentive embedding, which is
then used as a side input to the model. We implemented multi-user
VoiceFilter-Lite and evaluated it for three tasks: (1) a streaming automatic
speech recognition (ASR) task; (2) a text-independent speaker verification
task; and (3) a personalized keyphrase detection task, where ASR has to detect
keyphrases from multiple enrolled users in a noisy environment. Our experiments
show that, with up to four enrolled users, multi-user VoiceFilter-Lite is able
to significantly reduce speech recognition and speaker verification errors when
there is overlapping speech, without affecting performance under other acoustic
conditions. This attentive speaker embedding approach can also be easily
applied to other speaker-conditioned models such as personal VAD and
personalized ASR.
- Abstract(参考訳): 本稿では、voicefilter-liteのような話者条件付き音声モデルが、任意の数の登録ユーザを1回のパスでサポートできるようにするソリューションを提案する。
これは、複数の話者埋め込みにアテンション機構を用いて単一の注意埋め込みを計算し、モデルへのサイドインプットとして使用することによって実現される。
マルチユーザ音声フィルタ-liteを実装し,(1)ストリーミング自動音声認識(asr)タスク,(2)テキスト非依存話者照合タスク,(3)asrが複数の登録ユーザからのキーフレーズを雑音環境下で検出しなければならないパーソナライズされたキーフレーズ検出タスクの3つのタスクについて評価した。
提案実験では,最大4人の登録ユーザに対して,重複する音声が存在する場合の音声認識と話者照合の誤りを,他の音響条件下での性能に影響を与えずに大幅に低減できることを示す。
この注意型話者埋め込みアプローチは、個人用VADやパーソナライズされたASRといった他の話者条件モデルにも容易に適用できる。
関連論文リスト
- Empowering Whisper as a Joint Multi-Talker and Target-Talker Speech Recognition System [73.34663391495616]
本稿では,複数話者と目標話者の音声認識タスクを併用する先駆的手法を提案する。
具体的には、Whisperを凍結し、Sidecarセパレータをエンコーダに差し込み、複数の話者に対する混合埋め込みを分離する。
AishellMix Mandarin データセット上で,マルチストーカー ASR 上で許容できるゼロショット性能を提供する。
論文 参考訳(メタデータ) (2024-07-13T09:28:24Z) - Speaker Mask Transformer for Multi-talker Overlapped Speech Recognition [27.35304346509647]
話者ラベルを自己回帰変換器に基づく音声認識モデルに導入する。
次に、個々の話者の音声セグメントを検出するための新しい話者マスク分岐を提案する。
提案モデルでは,音声認識と話者ダイアリゼーションの両方を同時に行うことができる。
論文 参考訳(メタデータ) (2023-12-18T06:29:53Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - Closing the Gap between Single-User and Multi-User VoiceFilter-Lite [13.593557171761782]
VoiceFilter-Liteは、話者条件の音声分離モデルである。
非ターゲット話者からの重なり合う音声を抑えることにより、音声認識と話者検証を改善する上で重要な役割を担っている。
本稿では,マルチユーザVoiceFilter-Liteモデルを改善するための一連の実験を考案した。
マルチユーザとシングルユーザのVoiceFilter-Liteモデルの単一話者評価における性能ギャップを解消することに成功した。
論文 参考訳(メタデータ) (2022-02-24T16:10:16Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z) - Investigating on Incorporating Pretrained and Learnable Speaker
Representations for Multi-Speaker Multi-Style Text-to-Speech [54.75722224061665]
本研究では,異なる話者表現を調査し,事前学習可能な話者表現を統合することを提案する。
FastSpeech 2モデルと事前訓練された話者表現と学習可能な話者表現を組み合わせることで、少数の話者に対して大きな一般化能力を示す。
論文 参考訳(メタデータ) (2021-03-06T10:14:33Z) - A Machine of Few Words -- Interactive Speaker Recognition with
Reinforcement Learning [35.36769027019856]
対話型話者認識(ISR)と呼ばれる自動話者認識のための新しいパラダイムを提案する。
このパラダイムでは、個人化された発話をリクエストすることで、話者の表現を段階的に構築することを目的としている。
提案手法は,音声信号量が少ない場合に優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-08-07T12:44:08Z) - Joint Speaker Counting, Speech Recognition, and Speaker Identification
for Overlapped Speech of Any Number of Speakers [38.3469744871394]
エンドツーエンドの話者分散音声認識モデルを提案する。
重複した音声における話者カウント、音声認識、話者識別を統一する。
論文 参考訳(メタデータ) (2020-06-19T02:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。