論文の概要: ClearMask: Noise-Free and Naturalness-Preserving Protection Against Voice Deepfake Attacks
- arxiv url: http://arxiv.org/abs/2508.17660v1
- Date: Mon, 25 Aug 2025 04:46:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.634314
- Title: ClearMask: Noise-Free and Naturalness-Preserving Protection Against Voice Deepfake Attacks
- Title(参考訳): ClearMask:音声ディープフェイク攻撃に対する防音・自然保護対策
- Authors: Yuanda Wang, Bocheng Chen, Hanqing Guo, Guangjing Wang, Weikang Ding, Qiben Yan,
- Abstract要約: 音声ディープフェイク攻撃に対する防音機構であるClearMaskを提案する。
従来のアプローチとは異なり、ClearMaskは特定の周波数を選択的にフィルタリングすることでオーディオメルスペクトルを変更する。
また、ユニバーサル周波数フィルタと残響生成器を用いて、リアルタイムにストリーミング音声を保護するLiveMaskを開発した。
- 参考スコア(独自算出の注目度): 10.688345955363973
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Voice deepfake attacks, which artificially impersonate human speech for malicious purposes, have emerged as a severe threat. Existing defenses typically inject noise into human speech to compromise voice encoders in speech synthesis models. However, these methods degrade audio quality and require prior knowledge of the attack approaches, limiting their effectiveness in diverse scenarios. Moreover, real-time audios, such as speech in virtual meetings and voice messages, are still exposed to voice deepfake threats. To overcome these limitations, we propose ClearMask, a noise-free defense mechanism against voice deepfake attacks. Unlike traditional approaches, ClearMask modifies the audio mel-spectrogram by selectively filtering certain frequencies, inducing a transferable voice feature loss without injecting noise. We then apply audio style transfer to further deceive voice decoders while preserving perceived sound quality. Finally, optimized reverberation is introduced to disrupt the output of voice generation models without affecting the naturalness of the speech. Additionally, we develop LiveMask to protect streaming speech in real-time through a universal frequency filter and reverberation generator. Our experimental results show that ClearMask and LiveMask effectively prevent voice deepfake attacks from deceiving speaker verification models and human listeners, even for unseen voice synthesis models and black-box API services. Furthermore, ClearMask demonstrates resilience against adaptive attackers who attempt to recover the original audio signal from the protected speech samples.
- Abstract(参考訳): 悪意のある目的のために人間のスピーチを人工的に偽装する音声ディープフェイク攻撃は、深刻な脅威として浮上している。
既存の防御は人間の音声にノイズを注入し、音声合成モデルにおける音声エンコーダを妥協する。
しかし、これらの手法は音質を劣化させ、攻撃アプローチの事前知識を必要とするため、様々なシナリオにおいてその効果を制限している。
さらに、バーチャルミーティングでのスピーチや音声メッセージなどのリアルタイムオーディオは、音声ディープフェイクの脅威にさらされている。
このような制限を克服するため,音声ディープフェイク攻撃に対する防音機構であるClearMaskを提案する。
従来のアプローチとは異なり、ClearMaskは特定の周波数を選択的にフィルタリングし、ノイズを注入することなく、伝達可能な音声特徴損失を誘導することで、オーディオメルスペクトログラムを変更する。
次に、認識された音質を保ちながら、さらに騙される音声デコーダに音声スタイルの転送を適用する。
最後に、音声の自然性に影響を与えることなく、音声生成モデルの出力を妨害するために、最適化された残響を導入する。
さらに,ユニバーサル周波数フィルタと残響生成器を用いて,リアルタイムにストリーミング音声を保護するLiveMaskを開発した。
実験の結果,ClearMaskとLiveMaskは,音声合成モデルやブラックボックスAPIサービスであっても,話者検証モデルやヒューマンリスナーを欺く音声ディープフェイク攻撃を効果的に防ぐことができた。
さらに、ClearMaskは、保護された音声サンプルから元の音声信号を回復しようとする適応攻撃者に対してレジリエンスを示す。
関連論文リスト
- On the Generation and Removal of Speaker Adversarial Perturbation for Voice-Privacy Protection [45.49915832081347]
近年の音声プライバシ保護の進歩は,話者の音声属性を隠蔽する同じ手法の肯定的な使用例を示している。
本稿では,逆方向の摂動を発生させるエンティティを除去し,元の音声を復元する可逆性について検討する。
同様の手法は、捜査員が音声保護されたスピーチを匿名化し、犯罪者の身元をセキュリティと法医学的分析で復元するためにも用いられる。
論文 参考訳(メタデータ) (2024-12-12T11:46:07Z) - Muting Whisper: A Universal Acoustic Adversarial Attack on Speech Foundation Models [5.942307521138583]
モデル動作を操作するために,「特殊トークン」を敵攻撃によって利用することができることを示す。
本稿では,Whisper の $texttt|endoftext|>$ token の普遍的な音響的実現方法を提案する。
実験では、同じ0.64秒の対向音声セグメントが、ターゲットのWhisper ASRモデルを97%以上の音声サンプルでミュートできることを示した。
論文 参考訳(メタデータ) (2024-05-09T22:59:23Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - SceneFake: An Initial Dataset and Benchmarks for Scene Fake Audio Detection [54.74467470358476]
本稿では,シーンフェイク音声検出のためのデータセットSceneFakeを提案する。
操作されたオーディオは、オリジナルオーディオの音響シーンを改ざんするだけで生成される。
本論文では,SceneFakeデータセット上での擬似音声検出ベンチマーク結果について報告する。
論文 参考訳(メタデータ) (2022-11-11T09:05:50Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Audio Adversarial Examples: Attacks Using Vocal Masks [0.0]
自動音声テキストシステム上での音声対向例を構築した。
我々は、オリジナル音声から生成された音声のボーカルマスクをオーバーレイすることで、別の音声を生成する。
We apply our audio adversarial attack to five SOTA STT system: DeepSpeech, Julius, Kaldi, wav2letter@anywhere and CMUSphinx。
論文 参考訳(メタデータ) (2021-02-04T05:21:10Z) - Cortical Features for Defense Against Adversarial Audio Attacks [55.61885805423492]
本稿では,聴覚野の計算モデルを用いて,音声に対する敵対的攻撃に対する防御手法を提案する。
また,大脳皮質の特徴は,普遍的な敵の例に対する防御に有効であることを示す。
論文 参考訳(メタデータ) (2021-01-30T21:21:46Z) - VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device
Speech Recognition [60.462770498366524]
ターゲットユーザからの音声信号のみを保存するためにデバイス上で実行される単一チャネルソース分離モデルであるVoiceFilter-Liteを導入する。
本研究では,そのようなモデルを8ビット整数モデルとして量子化し,リアルタイムに実行可能であることを示す。
論文 参考訳(メタデータ) (2020-09-09T14:26:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。