論文の概要: RoVo: Robust Voice Protection Against Unauthorized Speech Synthesis with Embedding-Level Perturbations
- arxiv url: http://arxiv.org/abs/2505.12686v1
- Date: Mon, 19 May 2025 04:14:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.398508
- Title: RoVo: Robust Voice Protection Against Unauthorized Speech Synthesis with Embedding-Level Perturbations
- Title(参考訳): RoVo: 埋め込みレベル摂動を用いた無許可音声合成に対するロバスト音声保護
- Authors: Seungmin Kim, Sohee Park, Donghyun Kim, Jisu Lee, Daeseon Choi,
- Abstract要約: 音声信号の高次元埋め込みベクトルに対向的摂動を注入する新しい能動的防御手法であるRoVoを提案する。
RoVoは音声合成攻撃を効果的に防御し、音声強調モデルに強い抵抗を与える。
ユーザスタディによると、RoVoは保護された音声の自然性とユーザビリティの両方を保っている。
- 参考スコア(独自算出の注目度): 5.777711921986914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advancement of AI-based speech synthesis technologies such as Deep Voice, there is an increasing risk of voice spoofing attacks, including voice phishing and fake news, through unauthorized use of others' voices. Existing defenses that inject adversarial perturbations directly into audio signals have limited effectiveness, as these perturbations can easily be neutralized by speech enhancement methods. To overcome this limitation, we propose RoVo (Robust Voice), a novel proactive defense technique that injects adversarial perturbations into high-dimensional embedding vectors of audio signals, reconstructing them into protected speech. This approach effectively defends against speech synthesis attacks and also provides strong resistance to speech enhancement models, which represent a secondary attack threat. In extensive experiments, RoVo increased the Defense Success Rate (DSR) by over 70% compared to unprotected speech, across four state-of-the-art speech synthesis models. Specifically, RoVo achieved a DSR of 99.5% on a commercial speaker-verification API, effectively neutralizing speech synthesis attack. Moreover, RoVo's perturbations remained robust even under strong speech enhancement conditions, outperforming traditional methods. A user study confirmed that RoVo preserves both naturalness and usability of protected speech, highlighting its effectiveness in complex and evolving threat scenarios.
- Abstract(参考訳): Deep VoiceのようなAIベースの音声合成技術の進歩により、音声フィッシングやフェイクニュースを含む音声スプーフィング攻撃のリスクが増大する。
音声信号に直接対向的摂動を注入する既存の防御は、これらの摂動を音声強調法により容易に中和できるため、効果が限られている。
この制限を克服するために,音声信号の高次元埋め込みベクトルに対向的摂動を注入し,保護された音声に再構成する,新しいプロアクティブディフェンス技術であるRoVo(Robust Voice)を提案する。
このアプローチは、音声合成攻撃に対して効果的に防御し、二次攻撃脅威を表す音声強調モデルに対して強い抵抗を与える。
広範な実験において、RoVoは4つの最先端音声合成モデルにおいて、非保護音声と比較して防衛成功率(DSR)を70%以上向上させた。
具体的には、RoVoは商用話者検証APIで99.5%のDSRを達成し、音声合成攻撃を効果的に中和した。
さらに、RoVoの摂動は、強い音声強調条件の下でも頑健であり、従来の手法よりも優れていた。
ユーザ調査によると、RoVoは、保護された音声の自然性とユーザビリティの両方を保ち、複雑な脅威シナリオと進化する脅威シナリオにおけるその効果を強調している。
関連論文リスト
- SafeSpeech: Robust and Universal Voice Protection Against Malicious Speech Synthesis [8.590034271906289]
音声合成技術は非常に便利であり、現実的なディープフェイク音声の利用が危険を招いている。
悪意のある敵は、被害者のスピーチを不正に収集し、違法な搾取のために同様の声をクローンすることができる。
提案するフレームワークであるtextittextbfSafeSpeechは,本来の音声に知覚不能な摂動を埋め込むことで,アップロード前のユーザの音声を保護する。
論文 参考訳(メタデータ) (2025-04-14T03:21:23Z) - VocalCrypt: Novel Active Defense Against Deepfake Voice Based on Masking Effect [2.417762825674103]
AI音声クローンの急速な進歩は、機械学習によって推進され、テキスト音声(TTS)と音声変換(VC)の分野に大きな影響を与えている。
本研究では,SFSをベースとした擬似音色(ジャミング情報)を人間の耳に知覚できない音声セグメントに埋め込む,新たなアクティブディフェンス手法であるVocalCryptを提案する。
VocalCryptは、対向雑音の組み込みなど既存の手法と比較して、ロバスト性やリアルタイム性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-02-14T17:43:01Z) - Mitigating Unauthorized Speech Synthesis for Voice Protection [7.1578783467799]
悪意のある音声による搾取は 我々の日常生活に大きな危険をもたらしました
個人音声など機密情報を含む公開音声データを保護することが重要である。
本稿では,従来の音声サンプルに知覚不可能な誤り最小化雑音を適用したPivotal Objective Perturbation(POP)を提案する。
論文 参考訳(メタデータ) (2024-10-28T05:16:37Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Mel Frequency Spectral Domain Defenses against Adversarial Attacks on
Speech Recognition Systems [33.21836814000979]
本稿では,メルスペクトル領域を用いた音声特異的防音について検討し,新しい防音法「メル領域ノイズフラッディング(MDNF)」を提案する。
MDNFは音声信号の再合成に先立って音声のメルスペクトルに付加雑音を適用する。
プロジェクテッド勾配降下(PGD)やカルリーニ・ワグナー(CW)攻撃などの強力なホワイトボックス攻撃に対する防御実験を行った。
論文 参考訳(メタデータ) (2022-03-29T06:58:26Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Perceptual-based deep-learning denoiser as a defense against adversarial
attacks on ASR systems [26.519207339530478]
敵対的攻撃は、元の音声信号に小さな摂動を加えることで、誤分類を強制しようとする。
本稿では,ASRパイプラインのプリプロセッサとしてニューラルネットベースのデノイザを用いることで,この問題に対処することを提案する。
その結果,知覚的モチベーションのある損失関数を用いて難聴者の訓練を行うことで,対向的ロバスト性が向上することが判明した。
論文 参考訳(メタデータ) (2021-07-12T07:00:06Z) - Towards Robust Speech-to-Text Adversarial Attack [78.5097679815944]
本稿では,DeepSpeech,Kaldi,Lingvoなど,最先端の音声テキストシステムに対する新たな逆アルゴリズムを提案する。
本手法は, 逆最適化定式化の従来の歪み条件の拡張を開発することに基づいている。
元のサンプルと反対のサンプルの分布の差を測定するこの測定値の最小化は、正統な音声記録のサブスペースに非常に近い作成信号に寄与する。
論文 参考訳(メタデータ) (2021-03-15T01:51:41Z) - High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文 参考訳(メタデータ) (2021-01-31T10:54:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。