論文の概要: VoiceExtender: Short-utterance Text-independent Speaker Verification
with Guided Diffusion Model
- arxiv url: http://arxiv.org/abs/2310.04681v1
- Date: Sat, 7 Oct 2023 03:42:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 16:36:37.405571
- Title: VoiceExtender: Short-utterance Text-independent Speaker Verification
with Guided Diffusion Model
- Title(参考訳): VoiceExtender: 誘導拡散モデルを用いた短音声テキスト非依存話者検証
- Authors: Yayun He, Zuheng Kang, Jianzong Wang, Junqing Peng, Jing Xiao
- Abstract要約: 本稿では,短時間の音声信号処理において,SV性能を改善するための有望なソリューションを提供するVoiceExtenderというアーキテクチャを提案する。
本稿では,2つの拡散モデル,組込みと外部話者埋め込み(SE)誘導拡散モデルを用いて,拡散モデルに基づくサンプル生成器を用いて短い発話に基づいて音声特徴を増強する。
提案手法は, それぞれ0.5, 1.0, 1.5, 2.0秒の短い発話条件に対して, 46.1%, 35.7%, 10.4%, 5.7%の誤差率(EER)を相対的に改善した。
- 参考スコア(独自算出の注目度): 28.316314490687667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker verification (SV) performance deteriorates as utterances become
shorter. To this end, we propose a new architecture called VoiceExtender which
provides a promising solution for improving SV performance when handling
short-duration speech signals. We use two guided diffusion models, the built-in
and the external speaker embedding (SE) guided diffusion model, both of which
utilize a diffusion model-based sample generator that leverages SE guidance to
augment the speech features based on a short utterance. Extensive experimental
results on the VoxCeleb1 dataset show that our method outperforms the baseline,
with relative improvements in equal error rate (EER) of 46.1%, 35.7%, 10.4%,
and 5.7% for the short utterance conditions of 0.5, 1.0, 1.5, and 2.0 seconds,
respectively.
- Abstract(参考訳): 話者検証(SV)性能は発話が短くなるにつれて低下する。
そこで本研究では,短時間音声信号の処理におけるsv性能向上のための有望なソリューションであるvoiceextenderを提案する。
本稿では,2つの拡散モデル,組込みと外部話者埋め込み(SE)誘導拡散モデルを用いて,SE誘導を利用した拡散モデルに基づくサンプルジェネレータを用いて,短い発話に基づく音声特徴の増強を行う。
VoxCeleb1データセットの大規模な実験結果から,本手法は, それぞれ0.5, 1.0, 1.5, 2.0秒の短い発話条件に対して, 46.1%, 35.7%, 10.4%, 5.7%の誤差率(EER)を相対的に改善した。
関連論文リスト
- Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Adversarial Training of Denoising Diffusion Model Using Dual
Discriminators for High-Fidelity Multi-Speaker TTS [0.0]
拡散モデルは確率論的アプローチにより高品質なデータを生成することができる。
これは、多くの時間ステップを必要とするため、生成速度が遅くなるという欠点に悩まされる。
本稿では、逆過程の分布を学習する拡散判別器と、生成されたデータの分布を学習するスペクトログラム判別器の2つの識別器を用いた音声合成モデルを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:22:04Z) - DiffVoice: Text-to-Speech with Latent Diffusion [18.150627638754923]
本稿では,遅延拡散に基づく新しい音声合成モデルDiffVoiceを提案する。
LJSpeech と LibriTTS データセットの主観評価は,本手法が自然界で最高の公開システムに勝っていることを示す。
論文 参考訳(メタデータ) (2023-04-23T21:05:33Z) - Enhancing Unsupervised Speech Recognition with Diffusion GANs [1.4649095013539173]
拡散GANによる教師なし自動音声認識(ASR)のためのバニラ対向訓練法を強化する。
我々のモデルは、生成元の出力とラベルなし参照テキストに様々な強度のインスタンスノイズを注入する。
論文 参考訳(メタデータ) (2023-03-23T02:54:00Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - Acoustic-to-articulatory Inversion based on Speech Decomposition and
Auxiliary Feature [7.363994037183394]
我々は、音声分解ネットワークを事前訓練し、音声を話者埋め込みとコンテンツ埋め込みに分解する。
次に、パーソナライズされた音声特徴から唇補助特徴を推定する新しい補助特徴ネットワークを提案する。
実験結果から,提案手法は,音声特徴のみを用いた最先端の手法と比較して平均RMSEを0.25削減し,平均相関係数を2.0%向上させることがわかった。
論文 参考訳(メタデータ) (2022-04-02T14:47:19Z) - On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and
Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。
本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T09:12:24Z) - Performance-Efficiency Trade-offs in Unsupervised Pre-training for
Speech Recognition [32.61769580342906]
我々は、wav2vec 2.0にフォーカスし、モデルの性能と効率の両方に影響を与えるいくつかのアーキテクチャ設計を定式化します。
本稿では,性能と効率の両面で大幅な改善を施した事前学習型モデルアーキテクチャであるSEW(Squeezed and Efficient Wav2vec)を紹介する。
論文 参考訳(メタデータ) (2021-09-14T17:58:09Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z) - End-to-End Multi-speaker Speech Recognition with Transformer [88.22355110349933]
音声認識モデルにおけるRNNベースのエンコーダデコーダをトランスフォーマーアーキテクチャに置き換える。
また、計算量を削減するために、シーケンス全体ではなくセグメントに制限されるセルフアテンションコンポーネントを変更します。
論文 参考訳(メタデータ) (2020-02-10T16:29:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。