論文の概要: SingFake: Singing Voice Deepfake Detection
- arxiv url: http://arxiv.org/abs/2309.07525v2
- Date: Sun, 21 Jan 2024 08:57:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 20:52:15.379453
- Title: SingFake: Singing Voice Deepfake Detection
- Title(参考訳): SingFake: 音声のディープフェイク検出
- Authors: Yongyi Zang, You Zhang, Mojtaba Heydari, Zhiyao Duan
- Abstract要約: 歌声は音声の発声と異なる音響的・言語的特徴を示す。
最初にSingFakeを紹介した。これは、28.93時間のボナフィドからなる、最初の計算済みのインザミルドデータセットである。
次に、SingFakeを用いて、音声発話に基づいて訓練された4つの最先端音声対策システムを評価する。
- 参考スコア(独自算出の注目度): 16.82140520915859
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rise of singing voice synthesis presents critical challenges to artists
and industry stakeholders over unauthorized voice usage. Unlike synthesized
speech, synthesized singing voices are typically released in songs containing
strong background music that may hide synthesis artifacts. Additionally,
singing voices present different acoustic and linguistic characteristics from
speech utterances. These unique properties make singing voice deepfake
detection a relevant but significantly different problem from synthetic speech
detection. In this work, we propose the singing voice deepfake detection task.
We first present SingFake, the first curated in-the-wild dataset consisting of
28.93 hours of bonafide and 29.40 hours of deepfake song clips in five
languages from 40 singers. We provide a train/validation/test split where the
test sets include various scenarios. We then use SingFake to evaluate four
state-of-the-art speech countermeasure systems trained on speech utterances. We
find these systems lag significantly behind their performance on speech test
data. When trained on SingFake, either using separated vocal tracks or song
mixtures, these systems show substantial improvement. However, our evaluations
also identify challenges associated with unseen singers, communication codecs,
languages, and musical contexts, calling for dedicated research into singing
voice deepfake detection. The SingFake dataset and related resources are
available at https://www.singfake.org/.
- Abstract(参考訳): 歌声合成の台頭は、無許可音声使用に対するアーティストや業界の利害関係者にとって重要な課題となっている。
合成された音声とは異なり、合成された歌声は、合成のアーティファクトを隠す強固な背景音楽を含む歌で通常リリースされる。
さらに、歌声は、発話と異なる音響的・言語的特徴を示す。
これらの特徴により、歌声のディープフェイク検出は、合成音声検出とはかなり異なる問題となる。
本研究では,歌唱音声のディープフェイク検出タスクを提案する。
SingFakeは、40人の歌手の5つの言語で28.93時間のボナフィドと29.40時間のディープフェイク・ソングクリップからなる、初めて編集されたヴィルド・イン・ザ・ワイルドのデータセットである。
テストセットにはさまざまなシナリオが含まれています。
次に、SingFakeを用いて、発話を訓練した4つの最先端音声対策システムを評価する。
音声テストデータでは,これらのシステムの性能が著しく遅れていることがわかった。
SingFakeでのトレーニングでは、分離されたボーカルトラックまたは曲のミックスを使用して、これらのシステムは大幅に改善されている。
しかし,我々の評価では,歌手やコミュニケーションコーデック,言語,音楽的文脈にかかわる課題も特定し,歌声深度検出の専門的な研究を呼び掛けている。
singfakeデータセットと関連するリソースは、https://www.singfake.org/で入手できる。
関連論文リスト
- GTSinger: A Global Multi-Technique Singing Corpus with Realistic Music Scores for All Singing Tasks [52.30565320125514]
GTSingerは、グローバルで、多技術で、無料で使える、高品質な歌唱コーパスで、リアルな音楽スコアがある。
高品質な歌声を80.59時間収集し、最大の歌唱データセットを形成する。
我々は,技術制御可能な歌唱音声合成,技術認識,スタイル伝達,音声歌唱変換の4つのベンチマーク実験を行った。
論文 参考訳(メタデータ) (2024-09-20T18:18:14Z) - Text-to-Song: Towards Controllable Music Generation Incorporating Vocals and Accompaniment [56.019288564115136]
ボーカルと伴奏の両方を組み込んだテキスト・ツー・サング・シンセサイザーという新しいタスクを提案する。
我々は,歌唱音声合成 (SVS) とV2A合成 (V2A) を組み合わせた2段階音声合成法であるメロディストを開発した。
評価結果は,メロディストが同等の品質とスタイルの整合性で楽曲を合成できることを実証した。
論文 参考訳(メタデータ) (2024-04-14T18:00:05Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - Singer Identity Representation Learning using Self-Supervised Techniques [0.0]
歌唱関連タスクに適した表現を抽出するシンガーアイデンティティエンコーダを訓練するためのフレームワークを提案する。
我々は,孤立した音声トラックの集合体上で,異なる自己教師付き学習手法を探索する。
歌手の類似度と識別タスクにおける表現の質を評価する。
論文 参考訳(メタデータ) (2024-01-10T10:41:38Z) - Learning the Beauty in Songs: Neural Singing Voice Beautifier [69.21263011242907]
我々は、新しいタスク、歌声美化(SVB)に興味を持っている。
アマチュア歌手の歌声を考えると、SVBは内容と声の音色を保ちながら、声のイントネーションと声のトーンを改善することを目的としている。
SVBタスクを解く最初の生成モデルであるNSVB(Neural Singing Voice Beautifier)を導入する。
論文 参考訳(メタデータ) (2022-02-27T03:10:12Z) - Deep Learning Approach for Singer Voice Classification of Vietnamese
Popular Music [1.2043574473965315]
ベトナムのポピュラー音楽の分析に基づいて,歌手の名前を識別する新しい手法を提案する。
音声セグメント検出と歌声分離を前処理ステップとして利用しています。
本手法の正確性を検証するために,ベトナムの有名な歌手18人の歌曲300曲のデータセットを評価した。
論文 参考訳(メタデータ) (2021-02-24T08:03:07Z) - The Use of Voice Source Features for Sung Speech Recognition [24.129307615741695]
まず,歌声特徴と音声特徴の違いを説明するために,並列音声コーパスを用いた。
次に,この分析を用いて,歌唱音声dsingコーパスの音声認識実験を行う。
実験は、DSing1(15.1時間)、DSing3(44.7時間)、DSing30(149.1時間)の3つの標準訓練セットで実施される。
論文 参考訳(メタデータ) (2021-02-20T15:54:26Z) - DeepSinger: Singing Voice Synthesis with Data Mined From the Web [194.10598657846145]
DeepSinger(ディープシンガー)は、音楽ウェブサイトから抽出された歌唱訓練データを用いて、スクラッチから構築された多言語歌唱音声合成システムである。
DeepSingerを3つの言語で89人の歌手から約92時間のデータからなるマイニングされた歌唱データセットで評価した。
論文 参考訳(メタデータ) (2020-07-09T07:00:48Z) - Addressing the confounds of accompaniments in singer identification [29.949390919663596]
我々は、ソース分離における最先端のパフォーマンスを備えたオープンソースツールであるopen-Unmixを用いて、ボーカルと楽器のトラックを分離する。
次に,歌手識別モデルを学習する2つの方法について検討する。
論文 参考訳(メタデータ) (2020-02-17T07:49:21Z) - Score and Lyrics-Free Singing Voice Generation [48.55126268721948]
トレーニング時間と推論時間の両方において、事前に決められたスコアと歌詞のない歌声生成という、新しい挑戦的な代替手段を探求する。
生成的敵ネットワークを用いてそのようなモデルを実装し,客観的かつ主観的に評価する。
論文 参考訳(メタデータ) (2019-12-26T01:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。