論文の概要: SongBsAb: A Dual Prevention Approach against Singing Voice Conversion based Illegal Song Covers
- arxiv url: http://arxiv.org/abs/2401.17133v2
- Date: Sun, 01 Dec 2024 04:06:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 16:56:12.711965
- Title: SongBsAb: A Dual Prevention Approach against Singing Voice Conversion based Illegal Song Covers
- Title(参考訳): SongBsAb: 歌声変換に基づく違法な歌のカバーに対する二重防止手法
- Authors: Guangke Chen, Yedi Zhang, Fu Song, Ting Wang, Xiaoning Du, Yang Liu,
- Abstract要約: 我々は,SVCに基づく違法な楽曲カバーに取り組むための,最初の積極的なアプローチであるSongBsAbを提案する。
SongBsAbは、リリース前に歌声に摂動を追加するため、使用時にはSVCのプロセスが干渉される。
我々は,SongBsAbの5つの多種多様かつ有望なSVCモデルに対する防止効果,無害性,ロバスト性を実証した。
- 参考スコア(独自算出の注目度): 18.799610321361293
- License:
- Abstract: Singing voice conversion (SVC) automates song covers by converting a source singing voice from a source singer into a new singing voice with the same lyrics and melody as the source, but sounds like being covered by the target singer of some given target singing voices. However, it raises serious concerns about copyright and civil right infringements. We propose SongBsAb, the first proactive approach to tackle SVC-based illegal song covers. SongBsAb adds perturbations to singing voices before releasing them, so that when they are used, the process of SVC will be interfered, leading to unexpected singing voices. Perturbations are carefully crafted to (1) provide a dual prevention, i.e., preventing the singing voice from being used as the source and target singing voice in SVC, by proposing a gender-transformation loss and a high/low hierarchy multi-target loss, respectively; and (2) be harmless, i.e., no side-effect on the enjoyment of protected songs, by refining a psychoacoustic model-based loss with the backing track as an additional masker, a unique accompanying element for singing voices compared to ordinary speech voices. We also adopt a frame-level interaction reduction-based loss and encoder ensemble to enhance the transferability of SongBsAb to unknown SVC models. We demonstrate the prevention effectiveness, harmlessness, and robustness of SongBsAb on five diverse and promising SVC models, using both English and Chinese datasets, and both objective and human study-based subjective metrics. Our work fosters an emerging research direction for mitigating illegal automated song covers.
- Abstract(参考訳): 歌唱音声変換(SVC)は、ソースシンガーのソース歌唱音声を、ソースと同じ歌詞とメロディを持つ新しい歌唱音声に変換することで、歌のカバーを自動化するが、対象とする歌唱音声のターゲット歌手によってカバーされるように聞こえる。
しかし、これは著作権と市民権侵害に関する深刻な懸念を提起する。
我々は,SVCに基づく違法な楽曲カバーに取り組むための,最初の積極的なアプローチであるSongBsAbを提案する。
SongBsAbは、リリース前に歌声に摂動を加えるため、使用時にはSVCのプロセスが邪魔され、予期せぬ歌声に繋がる。
本発明の摂動は、(1)ジェンダー・トランスフォーメーション・ロスと、高い/低い階層のマルチターゲット・ロスをそれぞれ提案することにより、SVCにおける歌唱音声がソースおよびターゲットの歌声として使用されるのを防止し、(2)バックトラックを追加のマスカとして精神音響モデルに基づくロスを補正することにより、保護歌の楽しさに副作用がない、という2つの予防、すなわち、通常の音声に比べて歌唱音声のユニークな伴奏要素を提供する。
また,未知のSVCモデルへのSongBsAbの転送性を高めるために,フレームレベルのインタラクションリダクションに基づく損失とエンコーダアンサンブルを採用した。
我々は,SongBsAbの英語と中国語の両方のデータセットを用いて,多種多様かつ有望な5つのSVCモデルに対する予防効果,無害性,堅牢性を実証した。
我々の研究は、違法な自動カバーを緩和するための新たな研究の方向性を育んでいる。
関連論文リスト
- TCSinger: Zero-Shot Singing Voice Synthesis with Style Transfer and Multi-Level Style Control [58.96445085236971]
スタイル転送とスタイル制御を備えたゼロショット歌唱音声合成(SVS)は、目に見えない音色とスタイルで高品質な歌唱音声を生成することを目的としている。
言語間音声および歌唱スタイル間のスタイル伝達のための,最初のゼロショットSVSモデルであるTCSingerを紹介する。
論文 参考訳(メタデータ) (2024-09-24T11:18:09Z) - S2Cap: A Benchmark and a Baseline for Singing Style Captioning [12.515874333424929]
本稿では,歌唱音声データセットであるS2Capについて紹介する。
歌唱スタイルキャプションのための,シンプルで効果的なベースラインアルゴリズムを開発した。
その単純さにもかかわらず、提案手法は最先端のベースラインより優れている。
論文 参考訳(メタデータ) (2024-09-15T21:19:24Z) - SongCreator: Lyrics-based Universal Song Generation [53.248473603201916]
SongCreatorは、声楽と伴奏の両方で曲を生成するという課題に取り組むために設計された曲生成システムである。
モデルには2つの新しいデザインがある: ボーカルの情報と伴奏を収録するための巧妙に設計された二重系列言語モデル (M) と、DSLMのための一連の注意マスク戦略である。
実験では,8つのタスクすべてに対して,最先端ないし競争的なパフォーマンスを実現することにより,SongCreatorの有効性を示す。
論文 参考訳(メタデータ) (2024-09-09T19:37:07Z) - Text-to-Song: Towards Controllable Music Generation Incorporating Vocals and Accompaniment [56.019288564115136]
ボーカルと伴奏の両方を組み込んだテキスト・ツー・サング・シンセサイザーという新しいタスクを提案する。
我々は,歌唱音声合成 (SVS) とV2A合成 (V2A) を組み合わせた2段階音声合成法であるメロディストを開発した。
評価結果は,メロディストが同等の品質とスタイルの整合性で楽曲を合成できることを実証した。
論文 参考訳(メタデータ) (2024-04-14T18:00:05Z) - StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis [63.18764165357298]
ドメイン外歌唱音声合成(SVS)のためのスタイル転送は、目に見えないスタイルで高品質な歌唱音声を生成することに焦点を当てている。
StyleSingerは、ドメイン外参照音声サンプルのゼロショットスタイル転送のための最初の歌声合成モデルである。
ゼロショット・スタイル・トランスファーにおける評価は、StyleSingerが基準歌唱音声サンプルの音質と類似性の両方でベースライン・モデルより優れていることを不確実に証明している。
論文 参考訳(メタデータ) (2023-12-17T15:26:16Z) - SingSong: Generating musical accompaniments from singing [35.819589427197464]
入力ボーカルに付随する楽器音楽を生成するシステムであるSingSongについて述べる。
同じ音声入力と比較して、リスナーはSingSongが生成したインストゥルメンタルに対して重要な嗜好を表現した。
論文 参考訳(メタデータ) (2023-01-30T04:53:23Z) - Robust One-Shot Singing Voice Conversion [28.707278256253385]
高品質な歌唱音声変換(SVC)は, ピッチ, ラウドネス, 発音の多様さから, いまだに困難である。
歪んだ歌声でも頑健な一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一
実験の結果,提案手法は,見知らぬ歌手と見知らぬ歌手の両方に対して,最先端のワンショットSVCベースラインよりも優れていた。
論文 参考訳(メタデータ) (2022-10-20T08:47:35Z) - Learning the Beauty in Songs: Neural Singing Voice Beautifier [69.21263011242907]
我々は、新しいタスク、歌声美化(SVB)に興味を持っている。
アマチュア歌手の歌声を考えると、SVBは内容と声の音色を保ちながら、声のイントネーションと声のトーンを改善することを目的としている。
SVBタスクを解く最初の生成モデルであるNSVB(Neural Singing Voice Beautifier)を導入する。
論文 参考訳(メタデータ) (2022-02-27T03:10:12Z) - PPG-based singing voice conversion with adversarial representation
learning [18.937609682084034]
歌声変換は、歌唱内容とメロディを維持しながら、ある歌手の声を他の歌手の声に変換することを目的としている。
エンド・ツー・エンドのアーキテクチャを構築し、後部グラフを入力とし、メルスペクトログラムを生成する。
提案手法は, 自然性, メロディ, および音声類似性の観点から, 変換性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2020-10-28T08:03:27Z) - DeepSinger: Singing Voice Synthesis with Data Mined From the Web [194.10598657846145]
DeepSinger(ディープシンガー)は、音楽ウェブサイトから抽出された歌唱訓練データを用いて、スクラッチから構築された多言語歌唱音声合成システムである。
DeepSingerを3つの言語で89人の歌手から約92時間のデータからなるマイニングされた歌唱データセットで評価した。
論文 参考訳(メタデータ) (2020-07-09T07:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。