論文の概要: Closing the Gap between Single-User and Multi-User VoiceFilter-Lite
- arxiv url: http://arxiv.org/abs/2202.12169v1
- Date: Thu, 24 Feb 2022 16:10:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-25 16:35:56.602348
- Title: Closing the Gap between Single-User and Multi-User VoiceFilter-Lite
- Title(参考訳): シングルユーザとマルチユーザボイスフィルタのギャップを埋める
- Authors: Rajeev Rikhye, Quan Wang, Qiao Liang, Yanzhang He, Ian McGraw
- Abstract要約: VoiceFilter-Liteは、話者条件の音声分離モデルである。
非ターゲット話者からの重なり合う音声を抑えることにより、音声認識と話者検証を改善する上で重要な役割を担っている。
本稿では,マルチユーザVoiceFilter-Liteモデルを改善するための一連の実験を考案した。
マルチユーザとシングルユーザのVoiceFilter-Liteモデルの単一話者評価における性能ギャップを解消することに成功した。
- 参考スコア(独自算出の注目度): 13.593557171761782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: VoiceFilter-Lite is a speaker-conditioned voice separation model that plays a
crucial role in improving speech recognition and speaker verification by
suppressing overlapping speech from non-target speakers. However, one
limitation of VoiceFilter-Lite, and other speaker-conditioned speech models in
general, is that these models are usually limited to a single target speaker.
This is undesirable as most smart home devices now support multiple enrolled
users. In order to extend the benefits of personalization to multiple users, we
previously developed an attention-based speaker selection mechanism and applied
it to VoiceFilter-Lite. However, the original multi-user VoiceFilter-Lite model
suffers from significant performance degradation compared with single-user
models. In this paper, we devised a series of experiments to improve the
multi-user VoiceFilter-Lite model. By incorporating a dual learning rate
schedule and by using feature-wise linear modulation (FiLM) to condition the
model with the attended speaker embedding, we successfully closed the
performance gap between multi-user and single-user VoiceFilter-Lite models on
single-speaker evaluations. At the same time, the new model can also be easily
extended to support any number of users, and significantly outperforms our
previously published model on multi-speaker evaluations.
- Abstract(参考訳): voicefilter-liteは、非ターゲット話者からの重複音声認識を抑制し、音声認識と話者照合を改善する上で重要な役割を果たす話者条件音声分離モデルである。
しかしながら、VoiceFilter-Liteや他の話者条件音声モデルの1つの制限は、これらのモデルが通常、単一の話者に限られていることである。
多くのスマートホームデバイスが複数の登録ユーザーをサポートしているため、これは望ましくない。
複数のユーザがパーソナライゼーションのメリットを享受できるように,注意に基づく話者選択機構を開発し,それをvoicefilter-liteに適用した。
しかし、元々のマルチユーザー音声フィルタライトモデルは、シングルユーザーモデルに比べて大幅に性能が低下する。
本稿では,マルチユーザVoiceFilter-Liteモデルを改善する一連の実験を考案した。
二重学習率スケジュールを組み込んで,各話者の組込みモデルに特徴項線形変調(フィルム)を組み込むことにより,単話者評価においてマルチユーザと単ユーザ音声フィルタライトモデルの性能ギャップを解消することに成功した。
同時に、新しいモデルは、任意の数のユーザをサポートするために容易に拡張でき、マルチスピーカー評価において、以前公表したモデルよりも大幅に優れています。
関連論文リスト
- SelectTTS: Synthesizing Anyone's Voice via Discrete Unit-Based Frame Selection [7.6732312922460055]
本稿では,対象話者から適切なフレームを選択するための新しい手法であるSelectTTSを提案し,フレームレベルの自己教師型学習(SSL)機能を用いてデコードする。
提案手法は,未知話者の話者特性を効果的に把握し,主観的および主観的の両方において,他のマルチ話者テキスト音声フレームワークに匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2024-08-30T17:34:46Z) - Many-to-Many Voice Conversion based Feature Disentanglement using
Variational Autoencoder [2.4975981795360847]
そこで本稿では,多くの音声変換に対処するために,特徴のゆがみに基づく新しい手法を提案する。
本手法は、話者のアイデンティティと言語内容とを発話から切り離す能力を有する。
多くのソーススピーカーから単一のオートエンコーダネットワークで多くのターゲットスピーカーに変換することができる。
論文 参考訳(メタデータ) (2021-07-11T13:31:16Z) - Multi-user VoiceFilter-Lite via Attentive Speaker Embedding [11.321747759474164]
本研究では,話者条件付き音声モデルに対して,任意の数の登録ユーザをひとつのパスでサポートできるようにするソリューションを提案する。
これは、複数の話者埋め込みに注意機構を用いて単一の注意埋め込みを計算することで達成される。
最大4人の登録ユーザを持つマルチユーザVoiceFilter-Liteは、音声認識と話者認証エラーを大幅に削減することができる。
論文 参考訳(メタデータ) (2021-07-02T17:45:37Z) - GANSpeech: Adversarial Training for High-Fidelity Multi-Speaker Speech
Synthesis [6.632254395574993]
GANSpeechは、非自己回帰型マルチスピーカTSモデルに対向訓練法を採用する高忠実度マルチスピーカTSモデルである。
主観的な聴取試験では、GANSpeechはベースラインのマルチスピーカーであるFastSpeechとFastSpeech2モデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-06-29T08:15:30Z) - Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文 参考訳(メタデータ) (2021-06-06T15:34:11Z) - Investigating on Incorporating Pretrained and Learnable Speaker
Representations for Multi-Speaker Multi-Style Text-to-Speech [54.75722224061665]
本研究では,異なる話者表現を調査し,事前学習可能な話者表現を統合することを提案する。
FastSpeech 2モデルと事前訓練された話者表現と学習可能な話者表現を組み合わせることで、少数の話者に対して大きな一般化能力を示す。
論文 参考訳(メタデータ) (2021-03-06T10:14:33Z) - Voice Cloning: a Multi-Speaker Text-to-Speech Synthesis Approach based
on Transfer Learning [0.802904964931021]
提案手法は,マルチスピーカ音響空間をモデル化可能なシステムを実現するために,これらの制約を克服することを目的としている。
これにより、訓練期間中に観測されていなくても、異なる話者の声に似た音声を生成することができる。
論文 参考訳(メタデータ) (2021-02-10T18:43:56Z) - VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device
Speech Recognition [60.462770498366524]
ターゲットユーザからの音声信号のみを保存するためにデバイス上で実行される単一チャネルソース分離モデルであるVoiceFilter-Liteを導入する。
本研究では,そのようなモデルを8ビット整数モデルとして量子化し,リアルタイムに実行可能であることを示す。
論文 参考訳(メタデータ) (2020-09-09T14:26:56Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z) - Meta-Learning for Short Utterance Speaker Recognition with Imbalance
Length Pairs [65.28795726837386]
不均衡長ペアのためのメタラーニングフレームワークを提案する。
長い発話のサポートセットと様々な長さの短い発話のクエリセットでトレーニングする。
これら2つの学習スキームを組み合わせることで、既存の最先端話者検証モデルよりも優れた性能が得られる。
論文 参考訳(メタデータ) (2020-04-06T17:53:14Z) - Voice Separation with an Unknown Number of Multiple Speakers [113.91855071999298]
本稿では,複数の音声が同時に発声する混合音声系列を分離する手法を提案する。
新たな手法では、複数の処理ステップで音声を分離するように訓練されたゲートニューラルネットワークを使用し、各出力チャネルに固定された話者を維持する。
論文 参考訳(メタデータ) (2020-02-29T20:02:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。