論文の概要: SVSNet: An End-to-end Speaker Voice Similarity Assessment Model
- arxiv url: http://arxiv.org/abs/2107.09392v1
- Date: Tue, 20 Jul 2021 10:19:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-21 14:44:48.332478
- Title: SVSNet: An End-to-end Speaker Voice Similarity Assessment Model
- Title(参考訳): SVSNet: エンドツーエンドの音声類似度評価モデル
- Authors: Cheng-Hung Hu, Yu-Huai Peng, Junichi Yamagishi, Yu Tsao, Hsin-Min Wang
- Abstract要約: 本研究では、自然言語と合成音声の話者音声類似性を評価するために、最初のエンドツーエンドニューラルネットワークモデルであるSVSNetを提案する。
Voice Conversion Challenge 2018と2020の実験結果は、SVSNetがよく知られたベースラインシステムより優れていることを示している。
- 参考スコア(独自算出の注目度): 61.3813595968834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural evaluation metrics derived for numerous speech generation tasks have
recently attracted great attention. In this paper, we propose SVSNet, the first
end-to-end neural network model to assess the speaker voice similarity between
natural speech and synthesized speech. Unlike most neural evaluation metrics
that use hand-crafted features, SVSNet directly takes the raw waveform as input
to more completely utilize speech information for prediction. SVSNet consists
of encoder, co-attention, distance calculation, and prediction modules and is
trained in an end-to-end manner. The experimental results on the Voice
Conversion Challenge 2018 and 2020 (VCC2018 and VCC2020) datasets show that
SVSNet notably outperforms well-known baseline systems in the assessment of
speaker similarity at the utterance and system levels.
- Abstract(参考訳): 近年,多くの音声生成タスクに起因した神経評価指標が注目されている。
本稿では,自然言語と合成音声の話者音声類似性を評価するための,最初のエンドツーエンドニューラルネットワークモデルであるSVSNetを提案する。
手作りの機能を使用するほとんどの神経評価指標とは異なり、SVSNetは生の波形を直接入力とし、予測に音声情報をより完全に活用する。
SVSNetはエンコーダ、コアテンション、距離計算、予測モジュールで構成され、エンドツーエンドでトレーニングされている。
音声変換チャレンジ2018と2020(VCC2018とVCC2020)データセットの実験結果は、SVSNetが発話とシステムレベルでの話者類似性の評価において、よく知られたベースラインシステムよりも優れていることを示している。
関連論文リスト
- SVSNet+: Enhancing Speaker Voice Similarity Assessment Models with Representations from Speech Foundation Models [31.813459806715056]
事前訓練された音声基礎モデル(SFM)の表現は、多くの下流タスクにおいて顕著なパフォーマンスを示している。
本研究では,事前学習したSFM表現を統合したモデルであるSVSNet+を提案する。
論文 参考訳(メタデータ) (2024-06-12T17:37:09Z) - Online speaker diarization of meetings guided by speech separation [0.0]
重複した音声は、話者ダイアリゼーションシステムに問題があることで知られている。
長時間録音のオンライン話者ダイアリゼーションに適した音声分離誘導ダイアリゼーション方式を提案する。
論文 参考訳(メタデータ) (2024-01-30T09:09:22Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - STC speaker recognition systems for the NIST SRE 2021 [56.05258832139496]
本稿では,NIST 2021話者認識評価に提出されたSTCシステムについて述べる。
これらのシステムは、ディープニューラルネットワークを特徴抽出器として利用する様々なサブシステムで構成されている。
ビデオモダリティのために、大きな顔画像データセットに基づいて訓練されたRetinaFace顔検出器と深層ResNet顔埋め込み抽出器を用いた最良のソリューションを開発した。
論文 参考訳(メタデータ) (2021-11-03T15:31:01Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - Deep Learning Based Assessment of Synthetic Speech Naturalness [14.463987018380468]
合成音声の自然性に対する新たな客観的予測モデルを提案する。
Text-To-SpeechまたはVoice Conversionシステムの評価に使用できる。
論文 参考訳(メタデータ) (2021-04-23T16:05:20Z) - The HUAWEI Speaker Diarisation System for the VoxCeleb Speaker
Diarisation Challenge [6.6238321827660345]
本稿では,VoxCeleb Speaker Recognition Challenge 2020の話者ダイアリゼーショントラック(Track 4)のシステム構成について述べる。
我々のダイアリゼーションシステムは、入力音声信号のフロントエンドとして、よく訓練されたニューラルネットワークに基づく音声強調モデルから成り立っている。
論文 参考訳(メタデータ) (2020-10-22T12:42:07Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z) - Comparison of Speech Representations for Automatic Quality Estimation in
Multi-Speaker Text-to-Speech Synthesis [21.904558308567122]
本研究の目的は,多話者テキスト音声合成の出力品質に異なる話者がどう貢献するかを特徴付けることである。
我々は、人間の平均評価スコア(MOS)に基づいてトレーニングされたニューラルネットワーク(NN)を使用して、TSの品質を自動的に評価する。
論文 参考訳(メタデータ) (2020-02-28T10:44:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。