論文の概要: FreeTalk:A plug-and-play and black-box defense against speech synthesis attacks
- arxiv url: http://arxiv.org/abs/2509.00561v1
- Date: Sat, 30 Aug 2025 17:10:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.285574
- Title: FreeTalk:A plug-and-play and black-box defense against speech synthesis attacks
- Title(参考訳): FreeTalk:音声合成攻撃に対するプラグアンドプレイとブラックボックス防御
- Authors: Yuwen Pu, Zhou Feng, Chunyi Zhou, Jiahao Chen, Chunqiang Hu, Haibo Hu, Shouling Ji,
- Abstract要約: 音声合成攻撃に対する軽量で堅牢なプラグアンドプレイプライバシ保護手法を提案する。
本手法は,プライバシ保護と高音質を実現するために,元の音声に周波数領域の摂動を生成し,付加する。
- 参考スコア(独自算出の注目度): 40.22853425929116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, speech assistant and speech verification have been used in many fields, which brings much benefit and convenience for us. However, when we enjoy these speech applications, our speech may be collected by attackers for speech synthesis. For example, an attacker generates some inappropriate political opinions with the characteristic of the victim's voice by obtaining a piece of the victim's speech, which will greatly influence the victim's reputation. Specifically, with the appearance of some zero-shot voice conversion methods, the cost of speech synthesis attacks has been further reduced, which also brings greater challenges to user voice security and privacy. Some researchers have proposed the corresponding privacy-preserving methods. However, the existing approaches have some non-negligible drawbacks: low transferability and robustness, high computational overhead. These deficiencies seriously limit the existing method deployed in practical scenarios. Therefore, in this paper, we propose a lightweight, robust, plug-and-play privacy preservation method against speech synthesis attacks in a black-box setting. Our method generates and adds a frequency-domain perturbation to the original speech to achieve privacy protection and high speech quality. Then, we present a data augmentation strategy and noise smoothing mechanism to improve the robustness of the proposed method. Besides, to reduce the user's defense overhead, we also propose a novel identity-wise protection mechanism. It can generate a universal perturbation for one speaker and support privacy preservation for speech of any length. Finally, we conduct extensive experiments on 5 speech synthesis models, 5 speech verification models, 1 speech recognition model, and 2 datasets. The experimental results demonstrate that our method has satisfying privacy-preserving performance, high speech quality, and utility.
- Abstract(参考訳): 近年,多くの分野において音声アシスタントや音声検証が利用されており,多くの便益と利便性が得られている。
しかし、これらの音声を楽しむと、攻撃者が音声合成のために音声を収集することがある。
例えば、攻撃者は、被害者のスピーチの一部を入手することで、被害者の声の特徴を持つ不適切な政治的意見を生成し、被害者の評判に大きな影響を与える。
特に、ゼロショット音声変換方式の出現により、音声合成攻撃のコストはさらに削減され、ユーザ音声のセキュリティとプライバシに大きな課題がもたらされた。
一部の研究者は、対応するプライバシー保護法を提案している。
しかし、既存のアプローチには、転送性や堅牢性、高い計算オーバーヘッドといった、無視できない欠点がいくつかある。
これらの欠陥は、実践的なシナリオにデプロイされた既存のメソッドを著しく制限します。
そこで本稿では,ブラックボックス環境における音声合成攻撃に対して,軽量で堅牢なプラグアンドプレイプライバシ保護手法を提案する。
本手法は,プライバシ保護と高音質を実現するために,元の音声に周波数領域の摂動を生成し,付加する。
そして,提案手法のロバスト性を向上させるため,データ拡張戦略とノイズ平滑化機構を提案する。
また,ユーザの防御的オーバーヘッドを軽減するため,新たなアイデンティティ保護機構を提案する。
一つの話者に対する普遍的な摂動を生成し、任意の長さの音声に対するプライバシー保護をサポートする。
最後に、5つの音声合成モデル、5つの音声検証モデル、1つの音声認識モデル、2つのデータセットについて広範な実験を行った。
実験により,本手法は,プライバシー保護性能,高音質,実用性を満足できることを示した。
関連論文リスト
- RoVo: Robust Voice Protection Against Unauthorized Speech Synthesis with Embedding-Level Perturbations [5.777711921986914]
音声信号の高次元埋め込みベクトルに対向的摂動を注入する新しい能動的防御手法であるRoVoを提案する。
RoVoは音声合成攻撃を効果的に防御し、音声強調モデルに強い抵抗を与える。
ユーザスタディによると、RoVoは保護された音声の自然性とユーザビリティの両方を保っている。
論文 参考訳(メタデータ) (2025-05-19T04:14:58Z) - SafeSpeech: Robust and Universal Voice Protection Against Malicious Speech Synthesis [8.590034271906289]
音声合成技術は非常に便利であり、現実的なディープフェイク音声の利用が危険を招いている。
悪意のある敵は、被害者のスピーチを不正に収集し、違法な搾取のために同様の声をクローンすることができる。
提案するフレームワークであるtextittextbfSafeSpeechは,本来の音声に知覚不能な摂動を埋め込むことで,アップロード前のユーザの音声を保護する。
論文 参考訳(メタデータ) (2025-04-14T03:21:23Z) - Mitigating Unauthorized Speech Synthesis for Voice Protection [7.1578783467799]
悪意のある音声による搾取は 我々の日常生活に大きな危険をもたらしました
個人音声など機密情報を含む公開音声データを保護することが重要である。
本稿では,従来の音声サンプルに知覚不可能な誤り最小化雑音を適用したPivotal Objective Perturbation(POP)を提案する。
論文 参考訳(メタデータ) (2024-10-28T05:16:37Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Anonymizing Speech with Generative Adversarial Networks to Preserve
Speaker Privacy [22.84840887071428]
話者匿名化は、音声録音における音声を変化させることで話者の同一性を隠蔽することを目的としている。
これは一般的に、個人の保護とダウンストリームアプリケーションにおけるデータのユーザビリティとの間の、プライバシーとユーティリティのトレードオフが伴う。
本稿では,ワッサースタイン距離をコスト関数として生成した逆数ネットワークを用いて話者埋め込みを生成することで,この問題に対処することを提案する。
論文 参考訳(メタデータ) (2022-10-13T13:12:42Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文 参考訳(メタデータ) (2021-01-31T10:54:27Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。