論文の概要: VoiceCloak: A Multi-Dimensional Defense Framework against Unauthorized Diffusion-based Voice Cloning
- arxiv url: http://arxiv.org/abs/2505.12332v1
- Date: Sun, 18 May 2025 09:58:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.169855
- Title: VoiceCloak: A Multi-Dimensional Defense Framework against Unauthorized Diffusion-based Voice Cloning
- Title(参考訳): VoiceCloak: 不正拡散に基づく音声クローンに対する多次元防御フレームワーク
- Authors: Qianyue Hu, Junyan Wu, Wei Lu, Xiangyang Luo,
- Abstract要約: 拡散モデル(DM)は現実的な音声クローニング(VC)において顕著な成功を収めた
DMは、拡散の複雑な生成機構により、プロアクティブな防御と相容れないことが証明されている。
我々はVoiceCloakを紹介した。VoiceCloakは多次元のプロアクティブ・ディフェンス・フレームワークで、話者のアイデンティティを曖昧にし、潜在的な不正なVCの品質を劣化させることを目的としている。
- 参考スコア(独自算出の注目度): 14.907575859145423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Models (DMs) have achieved remarkable success in realistic voice cloning (VC), while they also increase the risk of malicious misuse. Existing proactive defenses designed for traditional VC models aim to disrupt the forgery process, but they have been proven incompatible with DMs due to the intricate generative mechanisms of diffusion. To bridge this gap, we introduce VoiceCloak, a multi-dimensional proactive defense framework with the goal of obfuscating speaker identity and degrading perceptual quality in potential unauthorized VC. To achieve these goals, we conduct a focused analysis to identify specific vulnerabilities within DMs, allowing VoiceCloak to disrupt the cloning process by introducing adversarial perturbations into the reference audio. Specifically, to obfuscate speaker identity, VoiceCloak first targets speaker identity by distorting representation learning embeddings to maximize identity variation, which is guided by auditory perception principles. Additionally, VoiceCloak disrupts crucial conditional guidance processes, particularly attention context, thereby preventing the alignment of vocal characteristics that are essential for achieving convincing cloning. Then, to address the second objective, VoiceCloak introduces score magnitude amplification to actively steer the reverse trajectory away from the generation of high-quality speech. Noise-guided semantic corruption is further employed to disrupt structural speech semantics captured by DMs, degrading output quality. Extensive experiments highlight VoiceCloak's outstanding defense success rate against unauthorized diffusion-based voice cloning. Audio samples of VoiceCloak are available at https://voice-cloak.github.io/VoiceCloak/.
- Abstract(参考訳): 拡散モデル(DM)は現実的な音声クローニング(VC)において顕著な成功を収め、悪意のある誤用のリスクも高めている。
従来のVCモデル用に設計された既存のプロアクティブディフェンスは、偽造プロセスを妨害することを目的としているが、拡散の複雑な生成機構のためにDMと互換性がないことが証明されている。
このギャップを埋めるために、VoiceCloakという多次元のプロアクティブディフェンスフレームワークを紹介します。
これらの目的を達成するために、我々は、DM内の特定の脆弱性を特定するために集中分析を行い、VoiceCloakが参照音声に対向的摂動を導入することでクローン処理を妨害することを可能にする。
具体的には、話者のアイデンティティを難読化するために、VoiceCloakはまず、表現学習の埋め込みを歪め、識別の変動を最大化する。
さらに、VoiceCloakは重要な条件付き指導プロセス、特に注意コンテキストを妨害し、決定的なクローンの実現に不可欠な発声特性のアライメントを防止する。
次に、第2の目的に対処するため、VoiceCloakは、高音質音声の生成から逆方向の軌跡を積極的に操るために、スコアグレード増幅を導入する。
ノイズ誘導セマンティック汚職は、DMが捉えた構造的音声セマンティックスを妨害し、出力品質を劣化させるためにさらに用いられる。
大規模な実験では、VoiceCloakの未承認拡散ベースの音声クローンに対する防衛成功率を強調している。
VoiceCloakのオーディオサンプルはhttps://voice-cloak.github.io/VoiceCloak/で公開されている。
関連論文リスト
- De-AntiFake: Rethinking the Protective Perturbations Against Voice Cloning Attacks [68.41885995006643]
本研究では,現実的な脅威モデル下での音声クローン(VC)に対する保護的摂動の最初の体系的評価について検討する。
以上の結果から,既存の浄化法は保護摂動の大部分を中和するが,VCモデルの特徴空間に歪みをもたらすことが示唆された。
そこで本研究では,(1)摂動音声の浄化,(2)音素指導を用いて音素を精製し,清潔な音声分布と整合させる2段階浄化法を提案する。
論文 参考訳(メタデータ) (2025-07-03T13:30:58Z) - SRD: Reinforcement-Learned Semantic Perturbation for Backdoor Defense in VLMs [57.880467106470775]
攻撃者は、トレーニングデータに知覚不能な摂動を注入することができ、モデルが悪意のある攻撃的制御されたキャプションを生成する。
本稿では,引き金の事前知識を伴わずにバックドア動作を緩和する強化学習フレームワークであるセマンティック・リワード・ディフェンス(SRD)を提案する。
SRDはDeep Q-Networkを使用して、機密画像領域に個別の摂動を適用するためのポリシーを学習し、悪意ある経路の活性化を妨害することを目的としている。
論文 参考訳(メタデータ) (2025-06-05T08:22:24Z) - CloneShield: A Framework for Universal Perturbation Against Zero-Shot Voice Cloning [30.85443077082408]
最近のTTS(text-to-speech)音声クローンのブレークスルーは、深刻なプライバシー上の懸念を引き起こしている。
ゼロショット音声のクローンを防止するために特別に設計された,普遍的な時間領域逆転摂動フレームワークであるCloneShieldを紹介する。
本手法は、合成テキストの事前知識を必要とせず、話者や発話に対して堅牢な保護を提供する。
論文 参考訳(メタデータ) (2025-05-25T12:22:00Z) - VocalCrypt: Novel Active Defense Against Deepfake Voice Based on Masking Effect [2.417762825674103]
AI音声クローンの急速な進歩は、機械学習によって推進され、テキスト音声(TTS)と音声変換(VC)の分野に大きな影響を与えている。
本研究では,SFSをベースとした擬似音色(ジャミング情報)を人間の耳に知覚できない音声セグメントに埋め込む,新たなアクティブディフェンス手法であるVocalCryptを提案する。
VocalCryptは、対向雑音の組み込みなど既存の手法と比較して、ロバスト性やリアルタイム性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-02-14T17:43:01Z) - SEF-VC: Speaker Embedding Free Zero-Shot Voice Conversion with Cross
Attention [24.842378497026154]
SEF-VCは、話者埋め込み自由音声変換モデルである。
話者の音色を、強力な位置非依存のクロスアテンション機構を通じて参照音声から学習し、組み込む。
HuBERTセマンティックトークンからの波形を非自己回帰的に再構成する。
論文 参考訳(メタデータ) (2023-12-14T06:26:55Z) - Controllable speech synthesis by learning discrete phoneme-level
prosodic representations [53.926969174260705]
直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。
複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:43:36Z) - DeID-VC: Speaker De-identification via Zero-shot Pseudo Voice Conversion [0.0]
DeID-VCは、実際の話者を擬似話者に変換する話者識別システムである。
PSGの助けを借りて、DeID-VCは独自の擬似話者を話者レベルや発話レベルに割り当てることができる。
論文 参考訳(メタデータ) (2022-09-09T21:13:08Z) - Self supervised learning for robust voice cloning [3.7989740031754806]
自己教師型フレームワークで学習した特徴を用いて,高品質な音声表現を生成する。
学習した特徴は、事前訓練された発話レベルの埋め込みや、非減衰タコトロンアーキテクチャへの入力として使用される。
この手法により、ラベルなしマルチスピーカデータセットでモデルをトレーニングし、未知の話者埋め込みを用いて話者の声を模倣することができる。
論文 参考訳(メタデータ) (2022-04-07T13:05:24Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - FoolHD: Fooling speaker identification by Highly imperceptible
adversarial Disturbances [63.80959552818541]
話者識別モデルに対する知覚不能な摂動を発生させるホワイトボックス・ステガノグラフィーによる敵攻撃を提案する。
我々のアプローチであるFoolHDは、DCTドメインで動作するGated Convolutional Autoencoderを使用し、多目的損失関数で訓練されている。
我々は,VoxCelebを用いて訓練した250話者識別xベクトルネットワークを用いてFoolHDを検証する。
論文 参考訳(メタデータ) (2020-11-17T07:38:26Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z) - FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and
Fusing Fine-Grained Voice Fragments With Attention [66.77490220410249]
本稿では、Wav2Vec 2.0から、音源話者からの発声の潜在音声構造を求めるFragmentVCを提案する。
FragmentVCは、ターゲット話者発話からきめ細かい音声断片を抽出し、所望の発話に融合することができる。
提案手法は, コンテンツと話者情報との絡み合いを考慮せずに, 再構成損失を学習する。
論文 参考訳(メタデータ) (2020-10-27T09:21:03Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。