論文の概要: Are Music Foundation Models Better at Singing Voice Deepfake Detection? Far-Better Fuse them with Speech Foundation Models
- arxiv url: http://arxiv.org/abs/2409.14131v1
- Date: Sat, 21 Sep 2024 12:50:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 03:22:12.054788
- Title: Are Music Foundation Models Better at Singing Voice Deepfake Detection? Far-Better Fuse them with Speech Foundation Models
- Title(参考訳): 音楽ファンデーションモデルでは音声深度検出がより優れているか?
- Authors: Orchid Chetia Phukan, Sarthak Jain, Swarup Ranjan Behera, Arun Balaji Buduru, Rajesh Sharma, S. R Mahadeva Prasanna,
- Abstract要約: 歌唱音声深度検出(SVDD)において,音楽基礎モデル (MFM) と音声基礎モデル (SFM) が有効かを検討した。
話者認識SFM表現は、すべての基礎モデル(FM)の中で最高である。
- 参考スコア(独自算出の注目度): 12.034908403186202
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this study, for the first time, we extensively investigate whether music foundation models (MFMs) or speech foundation models (SFMs) work better for singing voice deepfake detection (SVDD), which has recently attracted attention in the research community. For this, we perform a comprehensive comparative study of state-of-the-art (SOTA) MFMs (MERT variants and music2vec) and SFMs (pre-trained for general speech representation learning as well as speaker recognition). We show that speaker recognition SFM representations perform the best amongst all the foundation models (FMs), and this performance can be attributed to its higher efficacy in capturing the pitch, tone, intensity, etc, characteristics present in singing voices. To our end, we also explore the fusion of FMs for exploiting their complementary behavior for improved SVDD, and we propose a novel framework, FIONA for the same. With FIONA, through the synchronization of x-vector (speaker recognition SFM) and MERT-v1-330M (MFM), we report the best performance with the lowest Equal Error Rate (EER) of 13.74 %, beating all the individual FMs as well as baseline FM fusions and achieving SOTA results.
- Abstract(参考訳): 本研究では,音楽基礎モデル (MFM) や音声基礎モデル (SFM) が,最近研究コミュニティで注目されている歌声深度検出 (SVDD) に有効であるかどうかを,初めて広く検討した。
そこで本研究では,言語表現学習と話者認識のために事前訓練された,最先端(SOTA) MFM(MERT変種とMusic2vec)とSFM(SFM)の総合的な比較研究を行う。
本研究では,すべての基礎モデル(FM)の中で話者認識SFM表現が最良であることを示す。
また, 改良SVDDの相補的挙動を利用するためのFMの融合についても検討し, 新たなフレームワークであるFIONAを提案する。
FIONAでは、x-vector(話者認識SFM)とMERT-v1-330M(MFM)の同期により、EERが13.74 %で、各FMとベースラインFMの融合とSOTA結果の最良の性能を報告した。
関連論文リスト
- Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion [93.32354378820648]
本稿では拡散モデルに基づく相互学習フレームワークMVSDを紹介する。
MVSDは2つのタスクを対称的に考慮し、逆タスクからの学習を容易にするために相互関係を利用する。
我々のフレームワークは、残響器と残響器の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-07-15T00:47:56Z) - On the Evaluation of Speech Foundation Models for Spoken Language Understanding [87.52911510306011]
Spoken Language Understanding Evaluation (SLUE) というベンチマークタスクスイートが最近導入され、オープンリソースやベンチマークの必要性に対処している。
このベンチマークは、これらのSLUタスクに事前訓練された音声基礎モデル(SFM)を使用することで、予備的な成功を収めた。
どのSFMがこれらの複雑なSLUタスクに最も恩恵をもたらすか、そしてこれらのSFMを組み込む上で最も効果的なアプローチは何か?
論文 参考訳(メタデータ) (2024-06-14T14:37:52Z) - Development of a Reliable and Accessible Caregiving Language Model
(CaLM) [1.1487735059279973]
本研究の目的は、FMと介護知識ベースを用いて、信頼できる介護言語モデル(CaLM)を開発することである。
FMファインチューニングと組み合わせて, FM応答の質を向上させるために, Retrieval Augmented Generation (RAG) フレームワークを用いた CaLM を開発した。
本研究は,介護領域に特有の知識ベースを持つ小型FMを用いて,信頼性の高いCaLMを開発可能であることを示す。
論文 参考訳(メタデータ) (2024-03-11T16:12:34Z) - Speech foundation models on intelligibility prediction for
hearing-impaired listeners [4.742307809368852]
音声基礎モデル(SFM)は、多くの音声処理タスクでベンチマークされている。
本稿では,10個のSFMの体系的評価を行い,その1つの応用について述べる。
そこで本研究では,凍結したSFM上で特別な予測ヘッドを学習し,この問題に対処する簡単な手法を提案する。
論文 参考訳(メタデータ) (2024-01-24T18:26:52Z) - Learn From Model Beyond Fine-Tuning: A Survey [78.80920533793595]
Learn From Model (LFM) は、モデルインターフェースに基づいた基礎モデル(FM)の研究、修正、設計に焦点を当てている。
LFM技術の研究は、モデルチューニング、モデル蒸留、モデル再利用、メタラーニング、モデル編集の5つの分野に大別できる。
本稿では, LFM の観点から, FM に基づく現在の手法を概観する。
論文 参考訳(メタデータ) (2023-10-12T10:20:36Z) - VideoGLUE: Video General Understanding Evaluation of Foundation Models [89.07145427268948]
我々は、慎重に設計された実験プロトコルを用いて、基礎モデル(FM)の映像理解能力を評価する。
一般的な映像理解タスクに適応する際のFMの目印と有効性について共同で検討する。
論文 参考訳(メタデータ) (2023-07-06T17:47:52Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - An Efficient Membership Inference Attack for the Diffusion Model by
Proximal Initialization [58.88327181933151]
本稿では,効率的なクエリベースのメンバシップ推論攻撃(MIA)を提案する。
実験結果から,提案手法は離散時間と連続時間の両方の拡散モデル上で,2つのクエリで競合性能を達成できることが示唆された。
我々の知る限り、本研究はテキスト音声タスクにおけるMIAへの拡散モデルのロバスト性について初めて研究するものである。
論文 参考訳(メタデータ) (2023-05-26T16:38:48Z) - Comparison of Speech Representations for the MOS Prediction System [1.2949520455740093]
我々は,過去のBlizzardとVoice Conversion Challengesから収集した大規模聴取テストコーパスの実験を行った。
wav2vec の特徴集合は, 与えられた接地構造が常に信頼できるとは限らないにもかかわらず, 最高の一般化を示した。
論文 参考訳(メタデータ) (2022-06-28T08:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。