論文の概要: From Real to Cloned Singer Identification
- arxiv url: http://arxiv.org/abs/2407.08647v1
- Date: Thu, 11 Jul 2024 16:25:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 16:40:31.942269
- Title: From Real to Cloned Singer Identification
- Title(参考訳): 実物からクローンされた歌声の識別へ
- Authors: Dorian Desblancs, Gabriel Meseguer-Brocal, Romain Hennequin, Manuel Moussallam,
- Abstract要約: 歌手レベルのコントラスト学習方式を用いて学習した3つの埋め込みモデルを提案する。
3つのモデルがすべて、本物の歌手を識別できることを実証する。
しかし, 評価セットにおいて, 歌手のクローンバージョンを分類すると, 性能は低下する。
- 参考スコア(独自算出の注目度): 7.407642348217603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cloned voices of popular singers sound increasingly realistic and have gained popularity over the past few years. They however pose a threat to the industry due to personality rights concerns. As such, methods to identify the original singer in synthetic voices are needed. In this paper, we investigate how singer identification methods could be used for such a task. We present three embedding models that are trained using a singer-level contrastive learning scheme, where positive pairs consist of segments with vocals from the same singers. These segments can be mixtures for the first model, vocals for the second, and both for the third. We demonstrate that all three models are highly capable of identifying real singers. However, their performance deteriorates when classifying cloned versions of singers in our evaluation set. This is especially true for models that use mixtures as an input. These findings highlight the need to understand the biases that exist within singer identification systems, and how they can influence the identification of voice deepfakes in music.
- Abstract(参考訳): 人気歌手のクローンされた声はますます現実的になり、ここ数年で人気を博している。
しかし、彼らは人格権の懸念から業界に脅威を与えている。
そのため、合成音声でオリジナル歌手を識別する手法が必要である。
本稿では,歌手の識別手法をこのような課題に活用する方法を検討する。
歌唱レベルのコントラスト学習方式を用いて学習した3つの埋め込みモデルについて述べる。
これらのセグメントは第1モデルの混合、第2モデルのボーカル、第3モデルの双方で混合することができる。
3つのモデルがすべて、本物の歌手を識別できることを実証する。
しかし, 評価セットにおいて, 歌手のクローンバージョンを分類すると, 性能は低下する。
これは、混合物を入力として使用するモデルに特に当てはまる。
これらの知見は、歌手の識別システムに存在するバイアスを理解し、音楽における声のディープフェイクの識別にどのように影響を与えるかを理解する必要性を強調している。
関連論文リスト
- TCSinger: Zero-Shot Singing Voice Synthesis with Style Transfer and Multi-Level Style Control [58.96445085236971]
スタイル転送とスタイル制御を備えたゼロショット歌唱音声合成(SVS)は、目に見えない音色とスタイルで高品質な歌唱音声を生成することを目的としている。
言語間音声および歌唱スタイル間のスタイル伝達のための,最初のゼロショットSVSモデルであるTCSingerを紹介する。
TCSingerは、品質合成、シンガー類似性、および様々なタスクにおけるスタイル制御性において、全てのベースラインモデルより優れていることを示す。
論文 参考訳(メタデータ) (2024-09-24T11:18:09Z) - Singer Identity Representation Learning using Self-Supervised Techniques [0.0]
歌唱関連タスクに適した表現を抽出するシンガーアイデンティティエンコーダを訓練するためのフレームワークを提案する。
我々は,孤立した音声トラックの集合体上で,異なる自己教師付き学習手法を探索する。
歌手の類似度と識別タスクにおける表現の質を評価する。
論文 参考訳(メタデータ) (2024-01-10T10:41:38Z) - StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis [63.18764165357298]
ドメイン外歌唱音声合成(SVS)のためのスタイル転送は、目に見えないスタイルで高品質な歌唱音声を生成することに焦点を当てている。
StyleSingerは、ドメイン外参照音声サンプルのゼロショットスタイル転送のための最初の歌声合成モデルである。
ゼロショット・スタイル・トランスファーにおける評価は、StyleSingerが基準歌唱音声サンプルの音質と類似性の両方でベースライン・モデルより優れていることを不確実に証明している。
論文 参考訳(メタデータ) (2023-12-17T15:26:16Z) - SingFake: Singing Voice Deepfake Detection [16.82140520915859]
歌声は音声の発声と異なる音響的・言語的特徴を示す。
最初にSingFakeを紹介した。これは、28.93時間のボナフィドからなる、最初の計算済みのインザミルドデータセットである。
次に、SingFakeを用いて、音声発話に基づいて訓練された4つの最先端音声対策システムを評価する。
論文 参考訳(メタデータ) (2023-09-14T08:49:05Z) - Learning the Beauty in Songs: Neural Singing Voice Beautifier [69.21263011242907]
我々は、新しいタスク、歌声美化(SVB)に興味を持っている。
アマチュア歌手の歌声を考えると、SVBは内容と声の音色を保ちながら、声のイントネーションと声のトーンを改善することを目的としている。
SVBタスクを解く最初の生成モデルであるNSVB(Neural Singing Voice Beautifier)を導入する。
論文 参考訳(メタデータ) (2022-02-27T03:10:12Z) - Deep Learning Approach for Singer Voice Classification of Vietnamese
Popular Music [1.2043574473965315]
ベトナムのポピュラー音楽の分析に基づいて,歌手の名前を識別する新しい手法を提案する。
音声セグメント検出と歌声分離を前処理ステップとして利用しています。
本手法の正確性を検証するために,ベトナムの有名な歌手18人の歌曲300曲のデータセットを評価した。
論文 参考訳(メタデータ) (2021-02-24T08:03:07Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - DeepSinger: Singing Voice Synthesis with Data Mined From the Web [194.10598657846145]
DeepSinger(ディープシンガー)は、音楽ウェブサイトから抽出された歌唱訓練データを用いて、スクラッチから構築された多言語歌唱音声合成システムである。
DeepSingerを3つの言語で89人の歌手から約92時間のデータからなるマイニングされた歌唱データセットで評価した。
論文 参考訳(メタデータ) (2020-07-09T07:00:48Z) - Adversarially Trained Multi-Singer Sequence-To-Sequence Singing
Synthesizer [11.598416444452619]
我々は、異なる歌手の既存の歌唱データを全て活用するマルチシンガー・フレームワークを設計する。
我々は、エンコーダ出力が歌手依存を減らすために、シンガー分類の逆タスクを組み込んだ。
提案するシンセサイザーはベースラインよりも高品質な歌唱音声を生成することができる。
論文 参考訳(メタデータ) (2020-06-18T07:20:11Z) - Addressing the confounds of accompaniments in singer identification [29.949390919663596]
我々は、ソース分離における最先端のパフォーマンスを備えたオープンソースツールであるopen-Unmixを用いて、ボーカルと楽器のトラックを分離する。
次に,歌手識別モデルを学習する2つの方法について検討する。
論文 参考訳(メタデータ) (2020-02-17T07:49:21Z) - Score and Lyrics-Free Singing Voice Generation [48.55126268721948]
トレーニング時間と推論時間の両方において、事前に決められたスコアと歌詞のない歌声生成という、新しい挑戦的な代替手段を探求する。
生成的敵ネットワークを用いてそのようなモデルを実装し,客観的かつ主観的に評価する。
論文 参考訳(メタデータ) (2019-12-26T01:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。