論文の概要: A Proactive and Dual Prevention Mechanism against Illegal Song Covers
empowered by Singing Voice Conversion
- arxiv url: http://arxiv.org/abs/2401.17133v1
- Date: Tue, 30 Jan 2024 16:07:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 14:19:31.960508
- Title: A Proactive and Dual Prevention Mechanism against Illegal Song Covers
empowered by Singing Voice Conversion
- Title(参考訳): 歌声変換による不規則歌唱カバーの能動的・二重防止機構
- Authors: Guangke Chen, Yedi Zhang, Fu Song, Ting Wang, Xiaoning Du, Yang Liu
- Abstract要約: SongBsAbは、認可されていないSVCベースの違法な曲のカバーを緩和するための最初の積極的なアプローチである。
SongBsAbは、人間の知覚できない摂動を歌声に導入し、それを解放する。
3つのSVCモデルと2つのデータセットに対して,SongBsAbの防止効果,有効性,堅牢性を示す。
- 参考スコア(独自算出の注目度): 19.92036453116877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Singing voice conversion (SVC) automates song covers by converting one
singer's singing voice into another target singer's singing voice with the
original lyrics and melody. However, it raises serious concerns about copyright
and civil right infringements to multiple entities. This work proposes
SongBsAb, the first proactive approach to mitigate unauthorized SVC-based
illegal song covers. SongBsAb introduces human-imperceptible perturbations to
singing voices before releasing them, so that when they are used, the
generation process of SVC will be interfered, resulting in unexpected singing
voices. SongBsAb features a dual prevention effect by causing both (singer)
identity disruption and lyric disruption, namely, the SVC-covered singing voice
neither imitates the target singer nor preserves the original lyrics. To
improve the imperceptibility of perturbations, we refine a psychoacoustic
model-based loss with the backing track as an additional masker, a unique
accompanying element for singing voices compared to ordinary speech voices. To
enhance the transferability, we propose to utilize a frame-level interaction
reduction-based loss. We demonstrate the prevention effectiveness, utility, and
robustness of SongBsAb on three SVC models and two datasets using both
objective and human study-based subjective metrics. Our work fosters an
emerging research direction for mitigating illegal automated song covers.
- Abstract(参考訳): 歌唱音声変換(SVC)は、ある歌手の歌声を元の歌詞とメロディで別の歌手の歌声に変換することで、歌のカバーを自動化する。
しかし、複数の団体に対する著作権侵害や公民権侵害に深刻な懸念を抱いている。
この研究はSongBsAbを提案し、これは無許可のSVCベースの違法な歌のカバーを緩和する最初の積極的なアプローチである。
SongBsAbは、リリース前に人間の知覚できない摂動を歌声に導入し、それらを使用すると、SVCの生成過程が阻害され、予期しない歌声が発生する。
SongBsAbは、(歌手の)アイデンティティ破壊と歌詞破壊の両方を引き起こす二重防止効果、すなわち、SVCがカバーする歌声は、ターゲットの歌手を模倣したり、オリジナル歌詞を保存したりしない。
摂動の不可避性を改善するために,バックトラックをマスカとして心理音響モデルに基づく損失を洗練し,通常の音声音声に比べて歌声に特有の伴奏要素とした。
転送性を高めるために,フレームレベルの相互作用低減に基づく損失を利用する。
本研究では,SongBsAbの3つのSVCモデルと2つのデータセットに対する客観的・人為的な主観的指標を用いた予防効果,有用性,堅牢性を示す。
我々の研究は、違法な自動カバーを緩和するための新たな研究の方向性を育んでいる。
関連論文リスト
- TCSinger: Zero-Shot Singing Voice Synthesis with Style Transfer and Multi-Level Style Control [58.96445085236971]
スタイル転送とスタイル制御を備えたゼロショット歌唱音声合成(SVS)は、目に見えない音色とスタイルで高品質な歌唱音声を生成することを目的としている。
言語間音声および歌唱スタイル間のスタイル伝達のための,最初のゼロショットSVSモデルであるTCSingerを紹介する。
TCSingerは、品質合成、シンガー類似性、および様々なタスクにおけるスタイル制御性において、全てのベースラインモデルより優れていることを示す。
論文 参考訳(メタデータ) (2024-09-24T11:18:09Z) - Constructing a Singing Style Caption Dataset [12.515874333424929]
多様な属性セットを持つ音声テキストペアデータセットであるS2Capを紹介する。
S2Capは、テキストプロンプトと、幅広い声と音楽の属性を持つオーディオサンプルのペアで構成されている。
本稿では,事前学習したオーディオエンコーダの埋め込み空間の同期化に正対類似性学習を利用するCRESCENDOという新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2024-09-15T21:19:24Z) - SongCreator: Lyrics-based Universal Song Generation [53.248473603201916]
SongCreatorは、声楽と伴奏の両方で曲を生成するという課題に取り組むために設計された曲生成システムである。
モデルには2つの新しいデザインがある: ボーカルの情報と伴奏を収録するための巧妙に設計された二重系列言語モデル (M) と、DSLMのための一連の注意マスク戦略である。
実験では,8つのタスクすべてに対して,最先端ないし競争的なパフォーマンスを実現することにより,SongCreatorの有効性を示す。
論文 参考訳(メタデータ) (2024-09-09T19:37:07Z) - Text-to-Song: Towards Controllable Music Generation Incorporating Vocals and Accompaniment [56.019288564115136]
ボーカルと伴奏の両方を組み込んだテキスト・ツー・サング・シンセサイザーという新しいタスクを提案する。
我々は,歌唱音声合成 (SVS) とV2A合成 (V2A) を組み合わせた2段階音声合成法であるメロディストを開発した。
評価結果は,メロディストが同等の品質とスタイルの整合性で楽曲を合成できることを実証した。
論文 参考訳(メタデータ) (2024-04-14T18:00:05Z) - StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis [63.18764165357298]
ドメイン外歌唱音声合成(SVS)のためのスタイル転送は、目に見えないスタイルで高品質な歌唱音声を生成することに焦点を当てている。
StyleSingerは、ドメイン外参照音声サンプルのゼロショットスタイル転送のための最初の歌声合成モデルである。
ゼロショット・スタイル・トランスファーにおける評価は、StyleSingerが基準歌唱音声サンプルの音質と類似性の両方でベースライン・モデルより優れていることを不確実に証明している。
論文 参考訳(メタデータ) (2023-12-17T15:26:16Z) - Robust One-Shot Singing Voice Conversion [28.707278256253385]
高品質な歌唱音声変換(SVC)は, ピッチ, ラウドネス, 発音の多様さから, いまだに困難である。
歪んだ歌声でも頑健な一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一
実験の結果,提案手法は,見知らぬ歌手と見知らぬ歌手の両方に対して,最先端のワンショットSVCベースラインよりも優れていた。
論文 参考訳(メタデータ) (2022-10-20T08:47:35Z) - Learning the Beauty in Songs: Neural Singing Voice Beautifier [69.21263011242907]
我々は、新しいタスク、歌声美化(SVB)に興味を持っている。
アマチュア歌手の歌声を考えると、SVBは内容と声の音色を保ちながら、声のイントネーションと声のトーンを改善することを目的としている。
SVBタスクを解く最初の生成モデルであるNSVB(Neural Singing Voice Beautifier)を導入する。
論文 参考訳(メタデータ) (2022-02-27T03:10:12Z) - PPG-based singing voice conversion with adversarial representation
learning [18.937609682084034]
歌声変換は、歌唱内容とメロディを維持しながら、ある歌手の声を他の歌手の声に変換することを目的としている。
エンド・ツー・エンドのアーキテクチャを構築し、後部グラフを入力とし、メルスペクトログラムを生成する。
提案手法は, 自然性, メロディ, および音声類似性の観点から, 変換性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2020-10-28T08:03:27Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。