論文の概要: SingFake: Singing Voice Deepfake Detection
- arxiv url: http://arxiv.org/abs/2309.07525v2
- Date: Sun, 21 Jan 2024 08:57:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 20:52:15.379453
- Title: SingFake: Singing Voice Deepfake Detection
- Title(参考訳): SingFake: 音声のディープフェイク検出
- Authors: Yongyi Zang, You Zhang, Mojtaba Heydari, Zhiyao Duan
- Abstract要約: 歌声は音声の発声と異なる音響的・言語的特徴を示す。
最初にSingFakeを紹介した。これは、28.93時間のボナフィドからなる、最初の計算済みのインザミルドデータセットである。
次に、SingFakeを用いて、音声発話に基づいて訓練された4つの最先端音声対策システムを評価する。
- 参考スコア(独自算出の注目度): 16.82140520915859
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rise of singing voice synthesis presents critical challenges to artists
and industry stakeholders over unauthorized voice usage. Unlike synthesized
speech, synthesized singing voices are typically released in songs containing
strong background music that may hide synthesis artifacts. Additionally,
singing voices present different acoustic and linguistic characteristics from
speech utterances. These unique properties make singing voice deepfake
detection a relevant but significantly different problem from synthetic speech
detection. In this work, we propose the singing voice deepfake detection task.
We first present SingFake, the first curated in-the-wild dataset consisting of
28.93 hours of bonafide and 29.40 hours of deepfake song clips in five
languages from 40 singers. We provide a train/validation/test split where the
test sets include various scenarios. We then use SingFake to evaluate four
state-of-the-art speech countermeasure systems trained on speech utterances. We
find these systems lag significantly behind their performance on speech test
data. When trained on SingFake, either using separated vocal tracks or song
mixtures, these systems show substantial improvement. However, our evaluations
also identify challenges associated with unseen singers, communication codecs,
languages, and musical contexts, calling for dedicated research into singing
voice deepfake detection. The SingFake dataset and related resources are
available at https://www.singfake.org/.
- Abstract(参考訳): 歌声合成の台頭は、無許可音声使用に対するアーティストや業界の利害関係者にとって重要な課題となっている。
合成された音声とは異なり、合成された歌声は、合成のアーティファクトを隠す強固な背景音楽を含む歌で通常リリースされる。
さらに、歌声は、発話と異なる音響的・言語的特徴を示す。
これらの特徴により、歌声のディープフェイク検出は、合成音声検出とはかなり異なる問題となる。
本研究では,歌唱音声のディープフェイク検出タスクを提案する。
SingFakeは、40人の歌手の5つの言語で28.93時間のボナフィドと29.40時間のディープフェイク・ソングクリップからなる、初めて編集されたヴィルド・イン・ザ・ワイルドのデータセットである。
テストセットにはさまざまなシナリオが含まれています。
次に、SingFakeを用いて、発話を訓練した4つの最先端音声対策システムを評価する。
音声テストデータでは,これらのシステムの性能が著しく遅れていることがわかった。
SingFakeでのトレーニングでは、分離されたボーカルトラックまたは曲のミックスを使用して、これらのシステムは大幅に改善されている。
しかし,我々の評価では,歌手やコミュニケーションコーデック,言語,音楽的文脈にかかわる課題も特定し,歌声深度検出の専門的な研究を呼び掛けている。
singfakeデータセットと関連するリソースは、https://www.singfake.org/で入手できる。
関連論文リスト
- Singer Identity Representation Learning using Self-Supervised Techniques [0.0]
歌唱関連タスクに適した表現を抽出するシンガーアイデンティティエンコーダを訓練するためのフレームワークを提案する。
我々は,孤立した音声トラックの集合体上で,異なる自己教師付き学習手法を探索する。
歌手の類似度と識別タスクにおける表現の質を評価する。
論文 参考訳(メタデータ) (2024-01-10T10:41:38Z) - StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis [65.56386869666025]
ドメイン外歌唱音声合成(SVS)のためのスタイル転送は、目に見えないスタイルで高品質な歌唱音声を生成することに焦点を当てている。
StyleSingerは、ドメイン外参照音声サンプルのゼロショットスタイル転送のための最初の歌声合成モデルである。
ゼロショット・スタイル・トランスファーにおける評価は、StyleSingerが基準歌唱音声サンプルの音質と類似性の両方でベースライン・モデルより優れていることを不確実に証明している。
論文 参考訳(メタデータ) (2023-12-17T15:26:16Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - Vocalsound: A Dataset for Improving Human Vocal Sounds Recognition [13.373579620368046]
VocalSoundのデータセットは、21,000件以上のクラウドソースによる笑い声、うさぎ声、うなり声、喉のクリアリング、くしゃみ、嗅ぎ声の録音で構成されています。
実験の結果,既存のデータセットにVocalSoundデータセットを追加することで,モデルの音声認識性能を41.9%向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-05-06T18:08:18Z) - Learning the Beauty in Songs: Neural Singing Voice Beautifier [69.21263011242907]
我々は、新しいタスク、歌声美化(SVB)に興味を持っている。
アマチュア歌手の歌声を考えると、SVBは内容と声の音色を保ちながら、声のイントネーションと声のトーンを改善することを目的としている。
SVBタスクを解く最初の生成モデルであるNSVB(Neural Singing Voice Beautifier)を導入する。
論文 参考訳(メタデータ) (2022-02-27T03:10:12Z) - Deep Learning Approach for Singer Voice Classification of Vietnamese
Popular Music [1.2043574473965315]
ベトナムのポピュラー音楽の分析に基づいて,歌手の名前を識別する新しい手法を提案する。
音声セグメント検出と歌声分離を前処理ステップとして利用しています。
本手法の正確性を検証するために,ベトナムの有名な歌手18人の歌曲300曲のデータセットを評価した。
論文 参考訳(メタデータ) (2021-02-24T08:03:07Z) - The Use of Voice Source Features for Sung Speech Recognition [24.129307615741695]
まず,歌声特徴と音声特徴の違いを説明するために,並列音声コーパスを用いた。
次に,この分析を用いて,歌唱音声dsingコーパスの音声認識実験を行う。
実験は、DSing1(15.1時間)、DSing3(44.7時間)、DSing30(149.1時間)の3つの標準訓練セットで実施される。
論文 参考訳(メタデータ) (2021-02-20T15:54:26Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - DeepSinger: Singing Voice Synthesis with Data Mined From the Web [194.10598657846145]
DeepSinger(ディープシンガー)は、音楽ウェブサイトから抽出された歌唱訓練データを用いて、スクラッチから構築された多言語歌唱音声合成システムである。
DeepSingerを3つの言語で89人の歌手から約92時間のデータからなるマイニングされた歌唱データセットで評価した。
論文 参考訳(メタデータ) (2020-07-09T07:00:48Z) - Addressing the confounds of accompaniments in singer identification [29.949390919663596]
我々は、ソース分離における最先端のパフォーマンスを備えたオープンソースツールであるopen-Unmixを用いて、ボーカルと楽器のトラックを分離する。
次に,歌手識別モデルを学習する2つの方法について検討する。
論文 参考訳(メタデータ) (2020-02-17T07:49:21Z) - Score and Lyrics-Free Singing Voice Generation [48.55126268721948]
トレーニング時間と推論時間の両方において、事前に決められたスコアと歌詞のない歌声生成という、新しい挑戦的な代替手段を探求する。
生成的敵ネットワークを用いてそのようなモデルを実装し,客観的かつ主観的に評価する。
論文 参考訳(メタデータ) (2019-12-26T01:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。