論文の概要: VocalCrypt: Novel Active Defense Against Deepfake Voice Based on Masking Effect
- arxiv url: http://arxiv.org/abs/2502.10329v1
- Date: Fri, 14 Feb 2025 17:43:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:44:13.811997
- Title: VocalCrypt: Novel Active Defense Against Deepfake Voice Based on Masking Effect
- Title(参考訳): VocalCrypt: マスキング効果に基づくディープフェイク音声に対する新たなアクティブ・ディフェンス
- Authors: Qingyuan Fei, Wenjie Hou, Xuan Hai, Xin Liu,
- Abstract要約: AI音声クローンの急速な進歩は、機械学習によって推進され、テキスト音声(TTS)と音声変換(VC)の分野に大きな影響を与えている。
本研究では,SFSをベースとした擬似音色(ジャミング情報)を人間の耳に知覚できない音声セグメントに埋め込む,新たなアクティブディフェンス手法であるVocalCryptを提案する。
VocalCryptは、対向雑音の組み込みなど既存の手法と比較して、ロバスト性やリアルタイム性能を大幅に向上させる。
- 参考スコア(独自算出の注目度): 2.417762825674103
- License:
- Abstract: The rapid advancements in AI voice cloning, fueled by machine learning, have significantly impacted text-to-speech (TTS) and voice conversion (VC) fields. While these developments have led to notable progress, they have also raised concerns about the misuse of AI VC technology, causing economic losses and negative public perceptions. To address this challenge, this study focuses on creating active defense mechanisms against AI VC systems. We propose a novel active defense method, VocalCrypt, which embeds pseudo-timbre (jamming information) based on SFS into audio segments that are imperceptible to the human ear, thereby forming systematic fragments to prevent voice cloning. This approach protects the voice without compromising its quality. In comparison to existing methods, such as adversarial noise incorporation, VocalCrypt significantly enhances robustness and real-time performance, achieving a 500\% increase in generation speed while maintaining interference effectiveness. Unlike audio watermarking techniques, which focus on post-detection, our method offers preemptive defense, reducing implementation costs and enhancing feasibility. Extensive experiments using the Zhvoice and VCTK Corpus datasets show that our AI-cloned speech defense system performs excellently in automatic speaker verification (ASV) tests while preserving the integrity of the protected audio.
- Abstract(参考訳): AI音声のクローニングは、機械学習によって急速に進歩し、テキスト音声変換(TTS)と音声変換(VC)の分野に大きな影響を与えている。
これらの発展は顕著な進歩をもたらしたが、AIVC技術の誤用を懸念し、経済的損失と否定的な大衆の認識を引き起こした。
この課題に対処するために、本研究では、AIVCシステムに対するアクティブな防御メカニズムの作成に焦点を当てる。
本研究では,SFSをベースとした擬似音色(ジャミング情報)を人間の耳に認識できない音声セグメントに埋め込んだ新たなアクティブディフェンスであるVocalCryptを提案する。
このアプローチは、その品質を損なうことなく、声を保護します。
VocalCryptは, 対向雑音の組み込みなど既存の手法と比較して, 強靭性と実時間性能を著しく向上し, 干渉効率を維持しつつ, 生成速度を500倍に向上させる。
後検出に焦点を当てた音声透かし技術とは違って,プリエンプティブ・ディフェンス,実装コストの低減,実現可能性の向上を実現している。
Zhvoice と VCTK Corpus のデータセットを用いた大規模な実験により,AI を閉鎖した音声防衛システムは,保護された音声の完全性を保ちながら,自動話者検証(ASV)テストにおいて優れた性能を発揮することが示された。
関連論文リスト
- Mitigating Unauthorized Speech Synthesis for Voice Protection [7.1578783467799]
悪意のある音声による搾取は 我々の日常生活に大きな危険をもたらしました
個人音声など機密情報を含む公開音声データを保護することが重要である。
本稿では,従来の音声サンプルに知覚不可能な誤り最小化雑音を適用したPivotal Objective Perturbation(POP)を提案する。
論文 参考訳(メタデータ) (2024-10-28T05:16:37Z) - Can DeepFake Speech be Reliably Detected? [17.10792531439146]
この研究は、最先端のオープンソース音声検出装置に対する能動的悪意のある攻撃に関する最初の体系的研究である。
その結果、敵の脅威が進行する中で、より堅牢な検出方法が緊急に必要であることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-09T06:13:48Z) - VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - Phoneme-Based Proactive Anti-Eavesdropping with Controlled Recording Privilege [26.3587130339825]
本稿では,情報マスキングのアイデアを取り入れた新しい音素ベースノイズを提案する。
本システムでは,すべての音声認識システムにおいて,録音の認識精度を50%以下に抑えることができる。
論文 参考訳(メタデータ) (2024-01-28T16:56:56Z) - A Practical Survey on Emerging Threats from AI-driven Voice Attacks: How Vulnerable are Commercial Voice Control Systems? [13.115517847161428]
AIによる音声攻撃により、音声制御システムに新たなセキュリティ脆弱性が明らかになった。
本研究は,悪意ある音声攻撃に対する商用音声制御システムのレジリエンスを評価するための試みである。
以上の結果から,商用音声制御システムは既存の脅威に対する耐性を高めることが示唆された。
論文 参考訳(メタデータ) (2023-12-10T21:51:13Z) - High-Quality Automatic Voice Over with Accurate Alignment: Supervision
through Self-Supervised Discrete Speech Units [69.06657692891447]
本稿では,自己教師付き離散音声単位予測の学習目的を活用した新しいAVO手法を提案する。
実験結果から,提案手法は有意な唇音声同期と高音質を実現することが示された。
論文 参考訳(メタデータ) (2023-06-29T15:02:22Z) - Push-Pull: Characterizing the Adversarial Robustness for Audio-Visual
Active Speaker Detection [88.74863771919445]
我々は、音声のみ、視覚のみ、および音声-視覚的敵対攻撃下でのAVASDモデルの脆弱性を明らかにする。
また,攻撃者が現実的な相手を見つけるのを困難にするため,新たな音声・視覚的相互作用損失(AVIL)を提案する。
論文 参考訳(メタデータ) (2022-10-03T08:10:12Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z) - Practical Attacks on Voice Spoofing Countermeasures [3.388509725285237]
悪意あるアクターが、音声認証を最も厳格な形でバイパスするために、音声サンプルを効率的に作ることができることを示す。
本研究の結果は,攻撃者の脅威を回避し,現代の音声認証システムのセキュリティに疑問を投げかけるものである。
論文 参考訳(メタデータ) (2021-07-30T14:07:49Z) - Voicy: Zero-Shot Non-Parallel Voice Conversion in Noisy Reverberant
Environments [76.98764900754111]
音声変換(Voice Conversion, VC)は, 音源発話の非言語情報を変換し, 話者の同一性を変化させることを目的とした技術である。
我々は、特に騒々しいスピーチに適した新しいVCフレームワークであるVoicyを提案する。
自動エンコーダフレームワークにインスパイアされた本手法は,4つのエンコーダ(スピーカ,コンテンツ,音声,音響-ASR)と1つのデコーダから構成される。
論文 参考訳(メタデータ) (2021-06-16T15:47:06Z) - Multi-task self-supervised learning for Robust Speech Recognition [75.11748484288229]
本稿では,雑音および残響環境下での頑健な音声認識のためのPASE+を提案する。
我々は、様々なランダムな乱れで入力信号を汚染するオンライン音声歪みモジュールを用いる。
次に,再帰型ネットワークと畳み込み型ネットワークを効率よく組み合わせて,短時間および長期の音声力学をよりよく学習する改良型エンコーダを提案する。
論文 参考訳(メタデータ) (2020-01-25T00:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。