論文の概要: Deepfake Detection of Singing Voices With Whisper Encodings
- arxiv url: http://arxiv.org/abs/2501.18919v1
- Date: Fri, 31 Jan 2025 06:43:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 13:58:25.465962
- Title: Deepfake Detection of Singing Voices With Whisper Encodings
- Title(参考訳): ウィスパー符号化による歌唱音声のディープフェイク検出
- Authors: Falguni Sharma, Priyanka Gupta,
- Abstract要約: オープンAIのWhisperモデルの雑音変化符号化を用いた歌声深度検出(SVDD)システムを提案する。
音声のように直感に反するので、符号化は非音声情報に富み、ノイズ不変である。
本研究では,SVDDタスクをボーカルとミキシングで実行し,Whisperモデルサイズに対して%EERで評価する。
- 参考スコア(独自算出の注目度): 2.3388338598125196
- License:
- Abstract: The deepfake generation of singing vocals is a concerning issue for artists in the music industry. In this work, we propose a singing voice deepfake detection (SVDD) system, which uses noise-variant encodings of open-AI's Whisper model. As counter-intuitive as it may sound, even though the Whisper model is known to be noise-robust, the encodings are rich in non-speech information, and are noise-variant. This leads us to evaluate Whisper encodings as feature representations for the SVDD task. Therefore, in this work, the SVDD task is performed on vocals and mixtures, and the performance is evaluated in \%EER over varying Whisper model sizes and two classifiers- CNN and ResNet34, under different testing conditions.
- Abstract(参考訳): ディープフェイク世代の歌唱は、音楽産業のアーティストにとって問題となっている。
本研究では,オープンAIのWhisperモデルの雑音変化符号化を用いた歌声深度検出(SVDD)システムを提案する。
たとえWhisperモデルがノイズロバストであるとしても、その符号化は非音声情報に富み、ノイズ不変である。
これにより,WhisperエンコーディングをSVDDタスクの特徴表現として評価する。
そこで本研究では, SVDDタスクをボーカルとミキシングで実行し, 様々なWhisperモデルサイズと2つの分類器(CNNとResNet34)で異なるテスト条件下で性能評価を行う。
関連論文リスト
- Speech Foundation Model Ensembles for the Controlled Singing Voice Deepfake Detection (CtrSVDD) Challenge 2024 [8.940008511570207]
本研究は,1.79%のプールド等誤り率(EER)で先行システムを実現するための我々のアプローチを詳述する。
生成AIモデルの急速な進歩は、AIが生成するディープフェイクの歌声を検出する上で重要な課題である。
Singing Voice Deepfake Detection (SVDD) Challenge 2024は、この複雑な課題に対処することを目的としている。
論文 参考訳(メタデータ) (2024-09-03T21:28:45Z) - FSD: An Initial Chinese Dataset for Fake Song Detection [2.824228140644597]
中国語のFake Song Detectionデータセットを用いて,曲のディープフェイク検出の分野について検討する。
FSDデータセットの偽曲は、5つの最先端の歌唱音声合成と歌唱音声変換法によって生成される。
実験の結果,歌唱型ADDモデルでは,FSDテストセットの音声学習型ADDモデルと比較して平均等速が38.58%減少していることがわかった。
論文 参考訳(メタデータ) (2023-09-05T13:37:30Z) - A Comparative Analysis Of Latent Regressor Losses For Singing Voice
Conversion [15.691936529849539]
シンガーレコードのメル-スペクトログラム上のシンガーアイデンティティ埋め込み(SIE)ネットワークは、シンガー固有の分散符号化を生成する。
本稿では,これらの評価がピッチレジスタの違いの影響を受けないように,ソースとターゲットの歌手間のピッチマッチング機構を提案する。
論文 参考訳(メタデータ) (2023-02-27T11:26:57Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - An Initial Investigation for Detecting Vocoder Fingerprints of Fake
Audio [53.134423013599914]
本稿では,偽音声のボコーダ指紋を検出するための新しい問題を提案する。
8つの最先端ボコーダによって合成されたデータセットについて実験を行った。
論文 参考訳(メタデータ) (2022-08-20T09:23:21Z) - Learning the Beauty in Songs: Neural Singing Voice Beautifier [69.21263011242907]
我々は、新しいタスク、歌声美化(SVB)に興味を持っている。
アマチュア歌手の歌声を考えると、SVBは内容と声の音色を保ちながら、声のイントネーションと声のトーンを改善することを目的としている。
SVBタスクを解く最初の生成モデルであるNSVB(Neural Singing Voice Beautifier)を導入する。
論文 参考訳(メタデータ) (2022-02-27T03:10:12Z) - DiffSVC: A Diffusion Probabilistic Model for Singing Voice Conversion [51.83469048737548]
本稿では拡散確率モデルに基づくSVCシステムであるDiffSVCを提案する。
DiffSVCでは、破壊されたメルスペクトログラムとその対応するステップ情報を入力として、付加されたガウスノイズを予測するデノナイジングモジュールを訓練する。
実験により、DiffSVCは、現在の最先端SVCアプローチと自然性および音声類似性の観点から、優れた変換性能が得られることが示された。
論文 参考訳(メタデータ) (2021-05-28T14:26:40Z) - VAW-GAN for Singing Voice Conversion with Non-parallel Training Data [81.79070894458322]
VAW-GANに基づく歌声変換フレームワークを提案する。
我々はエンコーダを訓練し、歌手のアイデンティティと歌唱の韻律(F0)を音声コンテンツから切り離す。
シンガーIDとF0を条件付けすることにより、デコーダは、目に見えないターゲットシンガーIDの出力スペクトル特徴を生成する。
論文 参考訳(メタデータ) (2020-08-10T09:44:10Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。