論文の概要: Mitigating Unauthorized Speech Synthesis for Voice Protection
- arxiv url: http://arxiv.org/abs/2410.20742v1
- Date: Mon, 28 Oct 2024 05:16:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:15:27.580154
- Title: Mitigating Unauthorized Speech Synthesis for Voice Protection
- Title(参考訳): 音声保護のための無許可音声合成の軽減
- Authors: Zhisheng Zhang, Qianyi Yang, Derui Wang, Pengyang Huang, Yuxin Cao, Kai Ye, Jie Hao,
- Abstract要約: 悪意のある音声による搾取は 我々の日常生活に大きな危険をもたらしました
個人音声など機密情報を含む公開音声データを保護することが重要である。
本稿では,従来の音声サンプルに知覚不可能な誤り最小化雑音を適用したPivotal Objective Perturbation(POP)を提案する。
- 参考スコア(独自算出の注目度): 7.1578783467799
- License:
- Abstract: With just a few speech samples, it is possible to perfectly replicate a speaker's voice in recent years, while malicious voice exploitation (e.g., telecom fraud for illegal financial gain) has brought huge hazards in our daily lives. Therefore, it is crucial to protect publicly accessible speech data that contains sensitive information, such as personal voiceprints. Most previous defense methods have focused on spoofing speaker verification systems in timbre similarity but the synthesized deepfake speech is still of high quality. In response to the rising hazards, we devise an effective, transferable, and robust proactive protection technology named Pivotal Objective Perturbation (POP) that applies imperceptible error-minimizing noises on original speech samples to prevent them from being effectively learned for text-to-speech (TTS) synthesis models so that high-quality deepfake speeches cannot be generated. We conduct extensive experiments on state-of-the-art (SOTA) TTS models utilizing objective and subjective metrics to comprehensively evaluate our proposed method. The experimental results demonstrate outstanding effectiveness and transferability across various models. Compared to the speech unclarity score of 21.94% from voice synthesizers trained on samples without protection, POP-protected samples significantly increase it to 127.31%. Moreover, our method shows robustness against noise reduction and data augmentation techniques, thereby greatly reducing potential hazards.
- Abstract(参考訳): ごくわずかの音声サンプルで、近年では話者の声を完璧に再現することが可能であり、悪意のある音声利用(例えば不正な金銭的利益のためのテレコム詐欺)は、私たちの日常生活に大きな危険をもたらしている。
そのため、個人音声など機密情報を含む公開音声データを保護することが重要である。
従来の防音法は, 音色に類似した話者認証システムに焦点を合わせてきたが, 合成したディープフェイク音声は高品質である。
本研究では,テキスト音声合成モデル(TTS)において,非知覚的誤り最小化雑音が効果的に学習されることを防止するために,POP (Pivotal Objective Perturbation) という,効果的で伝達可能で堅牢なプロアクティブプロテクション技術を考案した。
我々は,提案手法を総合的に評価するために,客観的および主観的指標を用いたSOTA(State-of-the-art) TTSモデルに関する広範な実験を行った。
実験結果は, 各種モデル間での顕著な有効性と伝達性を示した。
保護のないサンプルで訓練された音声シンセサイザーの音声不明瞭度スコア21.94%と比較すると、POPで保護されたサンプルは127.31%に顕著に増加した。
さらに,本手法は,ノイズ低減とデータ拡張技術に対するロバスト性を示し,潜在的な危険性を大幅に低減する。
関連論文リスト
- DMDSpeech: Distilled Diffusion Model Surpassing The Teacher in Zero-shot Speech Synthesis via Direct Metric Optimization [12.310318928818546]
そこで本研究では, 直接的エンドツーエンド評価を用いたTS拡散モデルの蒸留法を提案する。
DMDSpeechは、自然性と話者類似性の両方において、従来の最先端モデルより一貫して上回っていることを示す。
この研究は、音声合成における直接メートル法最適化の可能性を強調し、モデルが人間の聴覚的嗜好とよりよく一致できるようにする。
論文 参考訳(メタデータ) (2024-10-14T21:17:58Z) - Can DeepFake Speech be Reliably Detected? [17.10792531439146]
この研究は、最先端のオープンソース音声検出装置に対する能動的悪意のある攻撃に関する最初の体系的研究である。
その結果、敵の脅威が進行する中で、より堅牢な検出方法が緊急に必要であることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-09T06:13:48Z) - HiddenSpeaker: Generate Imperceptible Unlearnable Audios for Speaker Verification System [0.9591674293850556]
学習音声サンプルに知覚不能な摂動を埋め込んだHiddenSpeakerというフレームワークを提案する。
以上の結果から,HiddenSpeakerは学習不可能なサンプルでモデルを騙すだけでなく,摂動の知覚能力を高めることが示唆された。
論文 参考訳(メタデータ) (2024-05-24T15:49:00Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Collaborative Watermarking for Adversarial Speech Synthesis [0.0]
合成音声透かしのための協調学習手法を提案する。
ASVspoof 2021ベースライン対策モデルと協調したHiFi-GANニューラルボコーダが検出性能を継続的に向上することを示す。
論文 参考訳(メタデータ) (2023-09-26T19:43:14Z) - Syn-Att: Synthetic Speech Attribution via Semi-Supervised Unknown
Multi-Class Ensemble of CNNs [1.262949092134022]
合成音声トラックを合成に用いるジェネレータに属性付ける新しい手法を提案する。
提案した検出器は、音声を対数メル分光器に変換し、CNNを用いて特徴を抽出し、5つの既知のアルゴリズムと未知のアルゴリズムを分類する。
ICASSP 2022のIEEE SP Cupチャレンジでは、Eval 2で12-13%、Eval 1で1-2%の精度で他のトップチームを上回った。
論文 参考訳(メタデータ) (2023-09-15T04:26:39Z) - Deepfake audio detection by speaker verification [79.99653758293277]
本研究では,話者の生体特性のみを活用する新しい検出手法を提案する。
提案手法は,既成話者検証ツールに基づいて実装することができる。
そこで我々は,3つの一般的なテストセット上で,優れた性能,高い一般化能力,高ロバスト性を有する音声障害に対する高ロバスト性を検証した。
論文 参考訳(メタデータ) (2022-09-28T13:46:29Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。