論文の概要: CloneShield: A Framework for Universal Perturbation Against Zero-Shot Voice Cloning
- arxiv url: http://arxiv.org/abs/2505.19119v1
- Date: Sun, 25 May 2025 12:22:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.919011
- Title: CloneShield: A Framework for Universal Perturbation Against Zero-Shot Voice Cloning
- Title(参考訳): CloneShield: ゼロショット音声クローンに対するユニバーサル摂動フレームワーク
- Authors: Renyuan Li, Zhibo Liang, Haichuan Zhang, Tianyu Shi, Zhiyuan Cheng, Jia Shi, Carl Yang, Mingjie Tang,
- Abstract要約: 最近のTTS(text-to-speech)音声クローンのブレークスルーは、深刻なプライバシー上の懸念を引き起こしている。
ゼロショット音声のクローンを防止するために特別に設計された,普遍的な時間領域逆転摂動フレームワークであるCloneShieldを紹介する。
本手法は、合成テキストの事前知識を必要とせず、話者や発話に対して堅牢な保護を提供する。
- 参考スコア(独自算出の注目度): 30.85443077082408
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent breakthroughs in text-to-speech (TTS) voice cloning have raised serious privacy concerns, allowing highly accurate vocal identity replication from just a few seconds of reference audio, while retaining the speaker's vocal authenticity. In this paper, we introduce CloneShield, a universal time-domain adversarial perturbation framework specifically designed to defend against zero-shot voice cloning. Our method provides protection that is robust across speakers and utterances, without requiring any prior knowledge of the synthesized text. We formulate perturbation generation as a multi-objective optimization problem, and propose Multi-Gradient Descent Algorithm (MGDA) to ensure the robust protection across diverse utterances. To preserve natural auditory perception for users, we decompose the adversarial perturbation via Mel-spectrogram representations and fine-tune it for each sample. This design ensures imperceptibility while maintaining strong degradation effects on zero-shot cloned outputs. Experiments on three state-of-the-art zero-shot TTS systems, five benchmark datasets and evaluations from 60 human listeners demonstrate that our method preserves near-original audio quality in protected inputs (PESQ = 3.90, SRS = 0.93) while substantially degrading both speaker similarity and speech quality in cloned samples (PESQ = 1.07, SRS = 0.08).
- Abstract(参考訳): 最近のTTS(text-to-speech)音声クローンのブレークスルーにより、深刻なプライバシー上の懸念が持ち上がり、わずか数秒の参照音声から高い精度の音声アイデンティティ複製が可能になった。
本稿では,ゼロショット音声のクローンを防止するために特別に設計された,普遍的な時間領域逆転摂動フレームワークであるCloneShieldを紹介する。
本手法は、合成テキストの事前知識を必要とせず、話者や発話に対して堅牢な保護を提供する。
我々は、多目的最適化問題として摂動生成を定式化し、多様な発話に対する頑健な保護を確保するために、MGDA(Multi-Gradient Descent Algorithm)を提案する。
ユーザにとって自然な聴覚知覚を維持するために,メル・スペクトログラム表現を用いて逆方向の摂動を分解し,各サンプルに対して微調整する。
この設計は、ゼロショットクローン出力に対する強い劣化効果を維持しながら、非受容性を保証する。
3つの最先端のゼロショットTSシステム、60人の聞き手による5つのベンチマークデータセット、評価実験により、本手法は保護された入力(PESQ = 3.90, SRS = 0.93)において、ほぼオリジナルに近い音質を保ちながら、クローン化されたサンプル(PESQ = 1.07, SRS = 0.08)において話者類似性と音声品質を著しく劣化させることを示した。
関連論文リスト
- VoiceCloak: A Multi-Dimensional Defense Framework against Unauthorized Diffusion-based Voice Cloning [14.907575859145423]
拡散モデル(DM)は現実的な音声クローニング(VC)において顕著な成功を収めた
DMは、拡散の複雑な生成機構により、プロアクティブな防御と相容れないことが証明されている。
我々はVoiceCloakを紹介した。VoiceCloakは多次元のプロアクティブ・ディフェンス・フレームワークで、話者のアイデンティティを曖昧にし、潜在的な不正なVCの品質を劣化させることを目的としている。
論文 参考訳(メタデータ) (2025-05-18T09:58:48Z) - VocalCrypt: Novel Active Defense Against Deepfake Voice Based on Masking Effect [2.417762825674103]
AI音声クローンの急速な進歩は、機械学習によって推進され、テキスト音声(TTS)と音声変換(VC)の分野に大きな影響を与えている。
本研究では,SFSをベースとした擬似音色(ジャミング情報)を人間の耳に知覚できない音声セグメントに埋め込む,新たなアクティブディフェンス手法であるVocalCryptを提案する。
VocalCryptは、対向雑音の組み込みなど既存の手法と比較して、ロバスト性やリアルタイム性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-02-14T17:43:01Z) - Mitigating Unauthorized Speech Synthesis for Voice Protection [7.1578783467799]
悪意のある音声による搾取は 我々の日常生活に大きな危険をもたらしました
個人音声など機密情報を含む公開音声データを保護することが重要である。
本稿では,従来の音声サンプルに知覚不可能な誤り最小化雑音を適用したPivotal Objective Perturbation(POP)を提案する。
論文 参考訳(メタデータ) (2024-10-28T05:16:37Z) - VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - Controllable speech synthesis by learning discrete phoneme-level
prosodic representations [53.926969174260705]
直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。
複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:43:36Z) - Prosody Cloning in Zero-Shot Multispeaker Text-to-Speech [25.707717591185386]
品質の劣化を伴わずに、話者の声と、音声参照の韻律を独立にクローンすることが可能であることを示す。
コードとトレーニングされたモデルはすべて、静的およびインタラクティブなデモとともに利用可能です。
論文 参考訳(メタデータ) (2022-06-24T11:54:59Z) - Speech Resynthesis from Discrete Disentangled Self-Supervised
Representations [49.48053138928408]
音声合成作業に自己教師付き離散表現を用いることを提案する。
音声コンテンツ、韻律情報、話者識別のための低ビット表現を抽出する。
得られた表現を使用することで、ベースラインメソッドよりも優れた音声品質を提供しながら、毎秒365ビットのレートが得られる。
論文 参考訳(メタデータ) (2021-04-01T09:20:33Z) - Towards Robust Speech-to-Text Adversarial Attack [78.5097679815944]
本稿では,DeepSpeech,Kaldi,Lingvoなど,最先端の音声テキストシステムに対する新たな逆アルゴリズムを提案する。
本手法は, 逆最適化定式化の従来の歪み条件の拡張を開発することに基づいている。
元のサンプルと反対のサンプルの分布の差を測定するこの測定値の最小化は、正統な音声記録のサブスペースに非常に近い作成信号に寄与する。
論文 参考訳(メタデータ) (2021-03-15T01:51:41Z) - F0-consistent many-to-many non-parallel voice conversion via conditional
autoencoder [53.901873501494606]
自動エンコーダによる音声変換を改良し,コンテンツ,F0,話者識別を同時に行う。
我々はF0輪郭を制御でき、ターゲット話者と一致したF0音声を生成し、品質と類似性を大幅に向上させることができる。
論文 参考訳(メタデータ) (2020-04-15T22:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。