論文の概要: VocalBridge: Latent Diffusion-Bridge Purification for Defeating Perturbation-Based Voiceprint Defenses
- arxiv url: http://arxiv.org/abs/2601.02444v1
- Date: Mon, 05 Jan 2026 13:43:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.675407
- Title: VocalBridge: Latent Diffusion-Bridge Purification for Defeating Perturbation-Based Voiceprint Defenses
- Title(参考訳): Vocal Bridge:摂動型音声認識のための潜伏拡散ブリッジの精製
- Authors: Maryam Abbasihafshejani, AHM Nazmus Sakib, Murtuza Jadliwala,
- Abstract要約: 最近の防衛は、保護的摂動を音声に埋め込むことによって、不正なクローン化を防ごうとしている。
本稿では,EnCodec潜伏空間における摂動からクリーン音声への潜伏写像を学習する浄化フレームワークであるVocalBridgeを提案する。
提案手法は, 保護音声からのクローン音声の回収において, 既存の浄化方法より一貫して優れていることを示す。
- 参考スコア(独自算出の注目度): 3.348046946735795
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The rapid advancement of speech synthesis technologies, including text-to-speech (TTS) and voice conversion (VC), has intensified security and privacy concerns related to voice cloning. Recent defenses attempt to prevent unauthorized cloning by embedding protective perturbations into speech to obscure speaker identity while maintaining intelligibility. However, adversaries can apply advanced purification techniques to remove these perturbations, recover authentic acoustic characteristics, and regenerate cloneable voices. Despite the growing realism of such attacks, the robustness of existing defenses under adaptive purification remains insufficiently studied. Most existing purification methods are designed to counter adversarial noise in automatic speech recognition (ASR) systems rather than speaker verification or voice cloning pipelines. As a result, they fail to suppress the fine-grained acoustic cues that define speaker identity and are often ineffective against speaker verification attacks (SVA). To address these limitations, we propose Diffusion-Bridge (VocalBridge), a purification framework that learns a latent mapping from perturbed to clean speech in the EnCodec latent space. Using a time-conditioned 1D U-Net with a cosine noise schedule, the model enables efficient, transcript-free purification while preserving speaker-discriminative structure. We further introduce a Whisper-guided phoneme variant that incorporates lightweight temporal guidance without requiring ground-truth transcripts. Experimental results show that our approach consistently outperforms existing purification methods in recovering cloneable voices from protected speech. Our findings demonstrate the fragility of current perturbation-based defenses and highlight the need for more robust protection mechanisms against evolving voice-cloning and speaker verification threats.
- Abstract(参考訳): テキスト音声合成技術(TTS)や音声変換技術(VC)など、音声合成技術の急速な進歩により、音声クローニングに関するセキュリティやプライバシーの懸念が高まっている。
近年の防衛は、保護的摂動を不明瞭な話者識別に埋め込むことによって、無許可のクローン化を防ごうとしている。
しかし、敵はこれらの摂動を除去し、真の音響特性を回復し、クローン可能な音声を再生するために高度な浄化技術を適用することができる。
このような攻撃の現実主義の高まりにもかかわらず、適応的な浄化の下での既存の防御の堅牢性は依然として十分に研究されていない。
既存の浄化法の多くは、話者検証や音声クローンパイプラインではなく、自動音声認識(ASR)システムにおける対向雑音に対抗するように設計されている。
その結果、話者識別を定義し、しばしば話者認証攻撃(SVA)に対して効果の低い、きめ細かい音響的手がかりを抑えられなかった。
これらの制約に対処するため,EnCodec潜伏空間における摂動からクリーン音声への潜伏写像を学習する浄化フレームワークであるDiffusion-Bridge(VocalBridge)を提案する。
時間条件付き1D U-Netとコサインノイズスケジュールを用いて,話者識別構造を保ちながら,効率的な書き起こし不要な浄化を可能にする。
さらに, 接地構文を必要とせず, 軽量な時間的ガイダンスを組み込んだWhisper-Guided音素モデルを提案する。
実験結果から,本手法は保護音声からのクローン音声の回収において,既存の浄化法より一貫して優れていたことが示唆された。
本研究は,現在の摂動型防御の脆弱さを実証し,音声閉鎖や話者認証の脅威に対するより堅牢な保護機構の必要性を強調した。
関連論文リスト
- Towards Low-Latency Tracking of Multiple Speakers With Short-Context Speaker Embeddings [52.985061676464554]
短文脈話者埋め込み抽出のための知識蒸留に基づく学習手法を提案する。
我々は、ビームフォーミングを用いて興味ある話者の空間情報を活用し、重複を低減する。
以上の結果から,本モデルは短文埋め込み抽出に有効であり,重なりやすいことが示唆された。
論文 参考訳(メタデータ) (2025-08-18T11:32:13Z) - De-AntiFake: Rethinking the Protective Perturbations Against Voice Cloning Attacks [68.41885995006643]
本研究では,現実的な脅威モデル下での音声クローン(VC)に対する保護的摂動の最初の体系的評価について検討する。
以上の結果から,既存の浄化法は保護摂動の大部分を中和するが,VCモデルの特徴空間に歪みをもたらすことが示唆された。
そこで本研究では,(1)摂動音声の浄化,(2)音素指導を用いて音素を精製し,清潔な音声分布と整合させる2段階浄化法を提案する。
論文 参考訳(メタデータ) (2025-07-03T13:30:58Z) - VoiceCloak: A Multi-Dimensional Defense Framework against Unauthorized Diffusion-based Voice Cloning [14.907575859145423]
拡散モデル(DM)は現実的な音声クローニング(VC)において顕著な成功を収めた
DMは、拡散の複雑な生成機構により、プロアクティブな防御と相容れないことが証明されている。
我々はVoiceCloakを紹介した。VoiceCloakは多次元のプロアクティブ・ディフェンス・フレームワークで、話者のアイデンティティを曖昧にし、潜在的な不正なVCの品質を劣化させることを目的としている。
論文 参考訳(メタデータ) (2025-05-18T09:58:48Z) - VocalCrypt: Novel Active Defense Against Deepfake Voice Based on Masking Effect [2.417762825674103]
AI音声クローンの急速な進歩は、機械学習によって推進され、テキスト音声(TTS)と音声変換(VC)の分野に大きな影響を与えている。
本研究では,SFSをベースとした擬似音色(ジャミング情報)を人間の耳に知覚できない音声セグメントに埋め込む,新たなアクティブディフェンス手法であるVocalCryptを提案する。
VocalCryptは、対向雑音の組み込みなど既存の手法と比較して、ロバスト性やリアルタイム性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-02-14T17:43:01Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
本稿では,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
この革新的なモデルは、レキシコンフリー環境下での以前の教師なしASRモデルの性能を上回る。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - Voicy: Zero-Shot Non-Parallel Voice Conversion in Noisy Reverberant
Environments [76.98764900754111]
音声変換(Voice Conversion, VC)は, 音源発話の非言語情報を変換し, 話者の同一性を変化させることを目的とした技術である。
我々は、特に騒々しいスピーチに適した新しいVCフレームワークであるVoicyを提案する。
自動エンコーダフレームワークにインスパイアされた本手法は,4つのエンコーダ(スピーカ,コンテンツ,音声,音響-ASR)と1つのデコーダから構成される。
論文 参考訳(メタデータ) (2021-06-16T15:47:06Z) - High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文 参考訳(メタデータ) (2021-01-31T10:54:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。