論文の概要: FSD: An Initial Chinese Dataset for Fake Song Detection
- arxiv url: http://arxiv.org/abs/2309.02232v1
- Date: Tue, 5 Sep 2023 13:37:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 14:34:38.100817
- Title: FSD: An Initial Chinese Dataset for Fake Song Detection
- Title(参考訳): FSD:中国初のフェイクソング検出用データセット
- Authors: Yuankun Xie, Jingjing Zhou, Xiaolin Lu, Zhenghao Jiang, Yuxin Yang,
Haonan Cheng, Long Ye
- Abstract要約: 曲のディープフェイク検出の分野を調査するために,中国語のフェイクソング検出データセットを構築した。
FSDデータセットの偽曲は、5つの最先端の歌唱音声合成と歌唱音声変換法によって生成される。
実験結果から、歌を訓練したADDモデルは平均等速の38.58%の減少率を示した。
- 参考スコア(独自算出の注目度): 2.824228140644597
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Singing voice synthesis and singing voice conversion have significantly
advanced, revolutionizing musical experiences. However, the rise of "Deepfake
Songs" generated by these technologies raises concerns about authenticity.
Unlike Audio DeepFake Detection (ADD), the field of song deepfake detection
lacks specialized datasets or methods for song authenticity verification. In
this paper, we initially construct a Chinese Fake Song Detection (FSD) dataset
to investigate the field of song deepfake detection. The fake songs in the FSD
dataset are generated by five state-of-the-art singing voice synthesis and
singing voice conversion methods. Our initial experiments on FSD revealed the
ineffectiveness of existing speech-trained ADD models for the task of Song
DeepFake Detection. Thus, we employ the FSD dataset for the training of ADD
models. We subsequently evaluate these models under two scenarios: one with the
original songs and another with separated vocal tracks. Experiment results show
that song-trained ADD models exhibit an approximate 38.58% reduction in average
equal error rate compared to speech-trained ADD models on the FSD test set.
- Abstract(参考訳): 歌声合成と歌声変換は著しく進歩し、音楽体験に革命をもたらした。
しかし、これらの技術が生み出した「ディープフェイクソング」の台頭は、真偽を懸念させる。
Audio DeepFake Detection (ADD)とは異なり、歌のディープフェイク検出の分野には、歌の認証のための特別なデータセットや方法がない。
本稿ではまず,中国語のFake Song Detection(FSD)データセットを構築し,曲のディープフェイク検出の分野について検討する。
FSDデータセットの偽曲は、5つの最先端の歌声合成と歌声変換方法によって生成される。
FSDの初期実験では,既存の音声学習型ADDモデルのSong DeepFake検出に対する効果が示された。
そこで本研究では,ADDモデルのトレーニングにFSDデータセットを用いる。
その後、オリジナル曲と別曲の2つのシナリオでこれらのモデルを評価した。
実験結果から,歌唱型ADDモデルはFSDテストセットの音声学習型ADDモデルと比較して,平均等速の38.58%の削減率を示した。
関連論文リスト
- Codecfake: An Initial Dataset for Detecting LLM-based Deepfake Audio [40.21394391724075]
大規模言語モデル(LLM)に基づくディープフェイク音声は、効果的な検出方法の緊急必要である。
7つの代表的ニューラルネットワークによって生成されるCodecfakeを提案する。
実験結果から, ニューラルトレーニング型ADDモデルでは, ボコーダトレーニング型ADDモデルに比べて41.406%の誤差率の低下が認められた。
論文 参考訳(メタデータ) (2024-06-12T11:47:23Z) - An RFP dataset for Real, Fake, and Partially fake audio detection [0.36832029288386137]
RFP da-tasetは、部分的フェイク(PF)、雑音を伴う音声、音声変換(VC)、テキスト音声(TTS)、リアルの5つの異なるオーディオタイプから構成される。
その後、データは複数の検出モデルを評価するために使用され、利用可能なモデルは、完全に偽のオーディオではなく、PFオーディオを検出するときに、著しく高い等速誤差率(EER)を発生させる。
論文 参考訳(メタデータ) (2024-04-26T23:00:56Z) - Cross-Domain Audio Deepfake Detection: Dataset and Analysis [11.985093463886056]
オーディオディープフェイク検出(ADD)は、個人の権利やプライバシーを侵害する合成音声の誤用を防ぐために不可欠である。
最近のゼロショット音声合成(TTS)モデルでは、単一の発話で音声をクローンできるため、高いリスクが生じる。
我々は、5つの高度なゼロショットTSモデルによって生成される300時間以上の音声データからなる新しいクロスドメインADDデータセットを構築した。
論文 参考訳(メタデータ) (2024-04-07T10:10:15Z) - Betray Oneself: A Novel Audio DeepFake Detection Model via
Mono-to-Stereo Conversion [70.99781219121803]
Audio Deepfake Detection (ADD)は、テキスト音声(TTS)、音声変換(VC)、再生などによって生成された偽音声を検出することを目的としている。
M2S-ADDと呼ばれる新しいADDモデルを提案する。
論文 参考訳(メタデータ) (2023-05-25T02:54:29Z) - SceneFake: An Initial Dataset and Benchmarks for Scene Fake Audio Detection [54.74467470358476]
本稿では,シーンフェイク音声検出のためのデータセットSceneFakeを提案する。
操作されたオーディオは、オリジナルオーディオの音響シーンを改ざんするだけで生成される。
本論文では,SceneFakeデータセット上での擬似音声検出ベンチマーク結果について報告する。
論文 参考訳(メタデータ) (2022-11-11T09:05:50Z) - An Initial Investigation for Detecting Vocoder Fingerprints of Fake
Audio [53.134423013599914]
本稿では,偽音声のボコーダ指紋を検出するための新しい問題を提案する。
8つの最先端ボコーダによって合成されたデータセットについて実験を行った。
論文 参考訳(メタデータ) (2022-08-20T09:23:21Z) - ADD 2022: the First Audio Deep Synthesis Detection Challenge [92.41777858637556]
最初のオーディオディープ合成検出チャレンジ(ADD)は、ギャップを埋めるために動機付けられた。
ADD 2022には、低品質の偽オーディオ検出(LF)、部分的に偽オーディオ検出(PF)、オーディオ偽ゲーム(FG)の3つのトラックが含まれている。
論文 参考訳(メタデータ) (2022-02-17T03:29:20Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Emotions Don't Lie: An Audio-Visual Deepfake Detection Method Using
Affective Cues [75.1731999380562]
本稿では,実・偽のディープフェイクマルチメディアコンテンツを検出する学習手法を提案する。
我々は,同じビデオから2つのオーディオと視覚の類似性を抽出し,解析する。
我々は,いくつかのSOTAディープフェイク検出手法との比較を行い,DFDCでは84.4%,DF-TIMITデータセットでは96.6%の動画AUCを報告した。
論文 参考訳(メタデータ) (2020-03-14T22:07:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。