論文の概要: SVSNet+: Enhancing Speaker Voice Similarity Assessment Models with Representations from Speech Foundation Models
- arxiv url: http://arxiv.org/abs/2406.08445v1
- Date: Wed, 12 Jun 2024 17:37:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 15:37:29.046395
- Title: SVSNet+: Enhancing Speaker Voice Similarity Assessment Models with Representations from Speech Foundation Models
- Title(参考訳): SVSNet+:音声基礎モデルからの表現による話者音声類似度評価モデルの実現
- Authors: Chun Yin, Tai-Shih Chi, Yu Tsao, Hsin-Min Wang,
- Abstract要約: 事前訓練された音声基礎モデル(SFM)の表現は、多くの下流タスクにおいて顕著なパフォーマンスを示している。
本研究では,事前学習したSFM表現を統合したモデルであるSVSNet+を提案する。
- 参考スコア(独自算出の注目度): 31.813459806715056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Representations from pre-trained speech foundation models (SFMs) have shown impressive performance in many downstream tasks. However, the potential benefits of incorporating pre-trained SFM representations into speaker voice similarity assessment have not been thoroughly investigated. In this paper, we propose SVSNet+, a model that integrates pre-trained SFM representations to improve performance in assessing speaker voice similarity. Experimental results on the Voice Conversion Challenge 2018 and 2020 datasets show that SVSNet+ incorporating WavLM representations shows significant improvements compared to baseline models. In addition, while fine-tuning WavLM with a small dataset of the downstream task does not improve performance, using the same dataset to learn a weighted-sum representation of WavLM can substantially improve performance. Furthermore, when WavLM is replaced by other SFMs, SVSNet+ still outperforms the baseline models and exhibits strong generalization ability.
- Abstract(参考訳): 事前訓練された音声基礎モデル(SFM)の表現は、多くの下流タスクにおいて顕著なパフォーマンスを示している。
しかし、事前訓練されたSFM表現を話者音声類似度評価に組み込むことの潜在的な利点は、十分に研究されていない。
本稿では,事前学習したSFM表現を統合したSVSNet+を提案する。
Voice Conversion Challenge 2018と2020データセットの実験結果は、SVSNet+にWavLM表現を組み込むことで、ベースラインモデルよりも大幅に改善されていることを示している。
さらに、下流タスクの小さなデータセットによる微調整WavLMの性能は向上しないが、同じデータセットを使用して、WavLMの重み付け表現を学習することで、性能を大幅に向上させることができる。
さらに、WavLMを他のSFMに置き換える場合、SVSNet+はベースラインモデルよりも優れ、強力な一般化能力を示す。
関連論文リスト
- Benchmarking Children's ASR with Supervised and Self-supervised Speech Foundation Models [23.383924361298874]
音声基礎モデル(SFM)は、教師付き(例えば、Whisper)や自己監督型(例えば、WavLM)の様々な音声タスクに対して最先端の結果を得た。
論文 参考訳(メタデータ) (2024-06-15T05:13:19Z) - Audio Mamba: Selective State Spaces for Self-Supervised Audio Representations [16.269123889392343]
本研究は,汎用音声表現学習のための選択状態空間モデルであるAudio Mambaを提案する。
10種類の多様なオーディオ認識ダウンストリームタスクに対する実験結果から、提案したモデルは、同等の自己教師型オーディオスペクトログラム変換器のベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2024-06-04T10:19:14Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models [92.92233932921741]
AV-SUPERBベンチマークは,音声・視覚・バイモーダル融合表現の汎用的評価を可能にする。
我々は,最近の5つの自己教師型モデルを評価し,これらのモデルがすべてのタスクに一般化されないことを示す。
我々は,AudioSetを用いた中間タスクの微調整と音声イベント分類によって表現が改善されることを実証した。
論文 参考訳(メタデータ) (2023-09-19T17:35:16Z) - Audio-visual speech enhancement with a deep Kalman filter generative
model [0.0]
本稿では,潜伏変数に対するマルコフ連鎖モデルを想定したオーディオビジュアルディープカルマンフィルタ(AV-DKF)生成モデルを提案する。
テスト時に音声信号を推定する効率的な推論手法を開発した。
論文 参考訳(メタデータ) (2022-11-02T09:50:08Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z) - Self-Supervised Representation Learning for Speech Using Visual
Grounding and Masked Language Modeling [13.956691231452336]
FaST-VGSはトランスフォーマーをベースとしたモデルで、生音声波形と意味論的関連画像の関連付けを学習する。
FaST-VGS+は、マスク付き言語モデリングの目的を持つマルチタスク方式で学習される。
我々のモデルはABXタスク上で競合的に動作し、SyntacticおよびSemanticタスクにおける他のコンカレントサブミッションよりも優れており、Lexicalタスクにおける最高のシステムとほぼ一致していることを示す。
論文 参考訳(メタデータ) (2022-02-07T22:09:54Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - SVSNet: An End-to-end Speaker Voice Similarity Assessment Model [61.3813595968834]
本研究では、自然言語と合成音声の話者音声類似性を評価するために、最初のエンドツーエンドニューラルネットワークモデルであるSVSNetを提案する。
Voice Conversion Challenge 2018と2020の実験結果は、SVSNetがよく知られたベースラインシステムより優れていることを示している。
論文 参考訳(メタデータ) (2021-07-20T10:19:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。