論文の概要: De-AntiFake: Rethinking the Protective Perturbations Against Voice Cloning Attacks
- arxiv url: http://arxiv.org/abs/2507.02606v1
- Date: Thu, 03 Jul 2025 13:30:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.294333
- Title: De-AntiFake: Rethinking the Protective Perturbations Against Voice Cloning Attacks
- Title(参考訳): De-AntiFake: 音声クローン攻撃に対する保護的妨害を再考する
- Authors: Wei Fan, Kejiang Chen, Chang Liu, Weiming Zhang, Nenghai Yu,
- Abstract要約: 本研究では,現実的な脅威モデル下での音声クローン(VC)に対する保護的摂動の最初の体系的評価について検討する。
以上の結果から,既存の浄化法は保護摂動の大部分を中和するが,VCモデルの特徴空間に歪みをもたらすことが示唆された。
そこで本研究では,(1)摂動音声の浄化,(2)音素指導を用いて音素を精製し,清潔な音声分布と整合させる2段階浄化法を提案する。
- 参考スコア(独自算出の注目度): 68.41885995006643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of speech generation models has heightened privacy and security concerns related to voice cloning (VC). Recent studies have investigated disrupting unauthorized voice cloning by introducing adversarial perturbations. However, determined attackers can mitigate these protective perturbations and successfully execute VC. In this study, we conduct the first systematic evaluation of these protective perturbations against VC under realistic threat models that include perturbation purification. Our findings reveal that while existing purification methods can neutralize a considerable portion of the protective perturbations, they still lead to distortions in the feature space of VC models, which degrades the performance of VC. From this perspective, we propose a novel two-stage purification method: (1) Purify the perturbed speech; (2) Refine it using phoneme guidance to align it with the clean speech distribution. Experimental results demonstrate that our method outperforms state-of-the-art purification methods in disrupting VC defenses. Our study reveals the limitations of adversarial perturbation-based VC defenses and underscores the urgent need for more robust solutions to mitigate the security and privacy risks posed by VC. The code and audio samples are available at https://de-antifake.github.io.
- Abstract(参考訳): 音声生成モデルの急速な進歩は、音声クローニング(VC)に関するプライバシーとセキュリティの懸念を高めている。
近年, 対向性摂動の導入による無許可音声クローニングの破壊について検討している。
しかし、決定された攻撃者はこれらの保護的摂動を緩和し、VCの実行を成功させることができる。
本研究では、摂動浄化を含む現実的な脅威モデルの下で、これらの保護摂動をVCに対して初めて体系的に評価する。
以上の結果から,既存の浄化法は保護摂動の大部分を中和するが,VCモデルの特徴空間に歪みが生じ,VCの性能が低下していることが明らかとなった。
そこで本研究では,(1)摂動音声の浄化,(2)音素誘導を用いて音素を精製し,クリーンな音声分布と整合させることにより,新しい2段階の浄化手法を提案する。
実験により,VC防衛の破壊における最先端の浄化法よりも優れた性能が得られた。
我々の研究は、敵対的摂動に基づくVC防衛の限界を明らかにし、VCが引き起こすセキュリティとプライバシーのリスクを軽減するために、より堅牢なソリューションが緊急に必要であることを示す。
コードとオーディオサンプルはhttps://de-antifake.github.ioで公開されている。
関連論文リスト
- VoiceCloak: A Multi-Dimensional Defense Framework against Unauthorized Diffusion-based Voice Cloning [14.907575859145423]
拡散モデル(DM)は現実的な音声クローニング(VC)において顕著な成功を収めた
DMは、拡散の複雑な生成機構により、プロアクティブな防御と相容れないことが証明されている。
我々はVoiceCloakを紹介した。VoiceCloakは多次元のプロアクティブ・ディフェンス・フレームワークで、話者のアイデンティティを曖昧にし、潜在的な不正なVCの品質を劣化させることを目的としている。
論文 参考訳(メタデータ) (2025-05-18T09:58:48Z) - T2V-OptJail: Discrete Prompt Optimization for Text-to-Video Jailbreak Attacks [67.91652526657599]
我々は、T2Vジェイルブレイク攻撃を離散最適化問題として定式化し、T2V-OptJailと呼ばれる共同目的ベース最適化フレームワークを提案する。
いくつかのT2Vモデルに対して大規模な実験を行い、オープンソースモデルと実際の商用クローズドソースモデルの両方をカバーする。
提案手法は,攻撃成功率の観点から既存手法よりも11.4%,10.0%向上する。
論文 参考訳(メタデータ) (2025-05-10T16:04:52Z) - VocalCrypt: Novel Active Defense Against Deepfake Voice Based on Masking Effect [2.417762825674103]
AI音声クローンの急速な進歩は、機械学習によって推進され、テキスト音声(TTS)と音声変換(VC)の分野に大きな影響を与えている。
本研究では,SFSをベースとした擬似音色(ジャミング情報)を人間の耳に知覚できない音声セグメントに埋め込む,新たなアクティブディフェンス手法であるVocalCryptを提案する。
VocalCryptは、対向雑音の組み込みなど既存の手法と比較して、ロバスト性やリアルタイム性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-02-14T17:43:01Z) - A Practical Survey on Emerging Threats from AI-driven Voice Attacks: How Vulnerable are Commercial Voice Control Systems? [13.115517847161428]
AIによる音声攻撃により、音声制御システムに新たなセキュリティ脆弱性が明らかになった。
本研究は,悪意ある音声攻撃に対する商用音声制御システムのレジリエンスを評価するための試みである。
以上の結果から,商用音声制御システムは既存の脅威に対する耐性を高めることが示唆された。
論文 参考訳(メタデータ) (2023-12-10T21:51:13Z) - Defense Against Adversarial Attacks on Audio DeepFake Detection [0.4511923587827302]
Audio DeepFakes (DF) は、ディープラーニングを用いて人工的に生成された発話である。
脅威を防ぐために、生成された音声を検出する複数のニューラルネットワークベースの手法が提案されている。
論文 参考訳(メタデータ) (2022-12-30T08:41:06Z) - Voicy: Zero-Shot Non-Parallel Voice Conversion in Noisy Reverberant
Environments [76.98764900754111]
音声変換(Voice Conversion, VC)は, 音源発話の非言語情報を変換し, 話者の同一性を変化させることを目的とした技術である。
我々は、特に騒々しいスピーチに適した新しいVCフレームワークであるVoicyを提案する。
自動エンコーダフレームワークにインスパイアされた本手法は,4つのエンコーダ(スピーカ,コンテンツ,音声,音響-ASR)と1つのデコーダから構成される。
論文 参考訳(メタデータ) (2021-06-16T15:47:06Z) - Improving the Adversarial Robustness for Speaker Verification by Self-Supervised Learning [95.60856995067083]
この研究は、特定の攻撃アルゴリズムを知らずにASVの敵防衛を行う最初の試みの一つである。
本研究の目的は,1) 対向摂動浄化と2) 対向摂動検出の2つの視点から対向防御を行うことである。
実験の結果, 検出モジュールは, 約80%の精度で対向検体を検出することにより, ASVを効果的に遮蔽することがわかった。
論文 参考訳(メタデータ) (2021-06-01T07:10:54Z) - Defense against adversarial attacks on spoofing countermeasures of ASV [95.87555881176529]
本稿では,ASVスプーフィング対策モデルの脆弱性を軽減するために,パッシブ・ディフェンス法,空間平滑化法,プロアクティブ・ディフェンス・トレーニング法を提案する。
実験結果から, これらの2つの防御手法は, 対向する対向的例に対して, 対向的対策モデルを偽装するのに有効であることが示唆された。
論文 参考訳(メタデータ) (2020-03-06T08:08:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。