論文の概要: E2E-VGuard: Adversarial Prevention for Production LLM-based End-To-End Speech Synthesis
- arxiv url: http://arxiv.org/abs/2511.07099v1
- Date: Mon, 10 Nov 2025 13:38:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.278787
- Title: E2E-VGuard: Adversarial Prevention for Production LLM-based End-To-End Speech Synthesis
- Title(参考訳): E2E-VGuard:LLMによるエンドツーエンド音声合成の逆防止
- Authors: Zhisheng Zhang, Derui Wang, Yifan Mi, Zhiyong Wu, Jie Gao, Yuxin Cao, Kai Ye, Minhui Xue, Jie Hao,
- Abstract要約: ボイスクローニング詐欺のような悪意ある悪用は、深刻なセキュリティリスクを引き起こす。
E2E-VGuardは、2つの新興脅威に対する積極的な防御フレームワークである。
音色保護のために,特徴抽出器を備えたエンコーダアンサンブルを用いる。
我々は精神音響モデルを導入し、摂動的不感を確実にする。
- 参考スコア(独自算出の注目度): 27.93620774992674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in speech synthesis technology have enriched our daily lives, with high-quality and human-like audio widely adopted across real-world applications. However, malicious exploitation like voice-cloning fraud poses severe security risks. Existing defense techniques struggle to address the production large language model (LLM)-based speech synthesis. While previous studies have considered the protection for fine-tuning synthesizers, they assume manually annotated transcripts. Given the labor intensity of manual annotation, end-to-end (E2E) systems leveraging automatic speech recognition (ASR) to generate transcripts are becoming increasingly prevalent, e.g., voice cloning via commercial APIs. Therefore, this E2E speech synthesis also requires new security mechanisms. To tackle these challenges, we propose E2E-VGuard, a proactive defense framework for two emerging threats: (1) production LLM-based speech synthesis, and (2) the novel attack arising from ASR-driven E2E scenarios. Specifically, we employ the encoder ensemble with a feature extractor to protect timbre, while ASR-targeted adversarial examples disrupt pronunciation. Moreover, we incorporate the psychoacoustic model to ensure perturbative imperceptibility. For a comprehensive evaluation, we test 16 open-source synthesizers and 3 commercial APIs across Chinese and English datasets, confirming E2E-VGuard's effectiveness in timbre and pronunciation protection. Real-world deployment validation is also conducted. Our code and demo page are available at https://wxzyd123.github.io/e2e-vguard/.
- Abstract(参考訳): 音声合成技術の最近の進歩は、私たちの日常生活を豊かにし、高品質で人間らしいオーディオが現実世界のアプリケーションに広く採用されている。
しかし、ボイスクローニング詐欺のような悪意ある悪用は、深刻なセキュリティリスクを引き起こす。
既存の防衛技術は、LLMベースの音声合成に対処するのに苦労している。
これまでの研究では、微調整シンセサイザーの保護について検討されてきたが、手動で注釈付けされた転写文字を仮定している。
手動アノテーションの強度を考えると、自動音声認識(ASR)を利用してテキストを生成するエンド・ツー・エンド(E2E)システムは、例えば商用APIによる音声のクローニングなど、ますます普及しつつある。
したがって、このE2E音声合成には新たなセキュリティ機構が必要である。
これらの課題に対処するために,(1)LLMに基づく音声合成と(2)ASR駆動型E2Eシナリオによる新規攻撃の2つの新興脅威に対する積極的な防御フレームワークであるE2E-VGuardを提案する。
具体的には,エンコーダのアンサンブルと特徴抽出器を用いて音色を保護する。
さらに、精神音響モデルを導入し、摂動的不感を確実にする。
総合的な評価のために16のオープンソースシンセサイザーと3つの商用APIを中国語と英語のデータセットでテストし、E2E-VGuardの音色と発音保護の有効性を確認した。
実際のデプロイメントの検証も行われている。
私たちのコードとデモページはhttps://wxzyd123.github.io/e2e-vguard/で公開されています。
関連論文リスト
- When Good Sounds Go Adversarial: Jailbreaking Audio-Language Models with Benign Inputs [1.911526481015]
本稿では,WhisperInjectについて紹介する。
最先端のオーディオ言語モデルを操作して有害なコンテンツを生成することができる。
提案手法は,人間の聴取者に不慣れな音声入力において,知覚不能な摂動を用いる。
論文 参考訳(メタデータ) (2025-08-05T12:14:01Z) - DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations [62.00227663434538]
DRVOICE-7BはOpenAudioBenchとBig Bench Audioベンチマーク上で新しい最先端(SOTA)を確立する。
本稿では,共同自己回帰モデルに基づくパラレル音声音声対話モデルであるDrVoiceを提案する。
論文 参考訳(メタデータ) (2025-06-11T02:57:22Z) - Audio Jailbreak Attacks: Exposing Vulnerabilities in SpeechGPT in a White-Box Framework [6.002582335323663]
白箱シナリオにおけるMLLM(Multimodal Large Language Models)の音声入力を対象とする逆攻撃を提案する。
本稿では,新たなトークンレベルアタックを導入し,モデルの音声トークン化へのアクセスを活用して,逆トークン列を生成する。
当社のアプローチでは,複数の制限されたタスクに対して,最大99%の攻撃成功率を実現しています。
論文 参考訳(メタデータ) (2025-05-24T20:46:36Z) - SafeSpeech: Robust and Universal Voice Protection Against Malicious Speech Synthesis [8.590034271906289]
音声合成技術は非常に便利であり、現実的なディープフェイク音声の利用が危険を招いている。
悪意のある敵は、被害者のスピーチを不正に収集し、違法な搾取のために同様の声をクローンすることができる。
提案するフレームワークであるtextittextbfSafeSpeechは,本来の音声に知覚不能な摂動を埋め込むことで,アップロード前のユーザの音声を保護する。
論文 参考訳(メタデータ) (2025-04-14T03:21:23Z) - Exploiting Vulnerabilities in Speech Translation Systems through Targeted Adversarial Attacks [59.87470192277124]
本稿では,非知覚的音声操作による音声翻訳システム構築手法について検討する。
本研究では,(1)ソース音声への摂動注入,(2)ターゲット翻訳を誘導する対向音楽の生成という2つの革新的なアプローチを提案する。
我々の実験では、注意深く作られた音声摂動は、ターゲットとなる有害な出力を生成するために翻訳モデルを誤解させる可能性があるが、敵対的な音楽はこの目標をより隠蔽的に達成する。
この研究の意味は、直ちにセキュリティ上の懸念を越えて、ニューラル音声処理システムの解釈可能性と堅牢性に光を当てることである。
論文 参考訳(メタデータ) (2025-03-02T16:38:16Z) - One model to rule them all ? Towards End-to-End Joint Speaker
Diarization and Speech Recognition [50.055765860343286]
本稿では,共同話者ダイアリゼーションと音声認識のための新しい枠組みを提案する。
このフレームワークはSLIDARと呼ばれ、任意の長さの入力を処理でき、任意の数の話者を処理できる。
AMIコーパスからの単調録音実験により, 近接話者と遠距離話者の両方の発話シナリオにおける手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-10-02T23:03:30Z) - Transformer-Based Speech Synthesizer Attribution in an Open Set Scenario [16.93803259128475]
音声合成法は、詐欺、偽造、誤情報キャンペーンに使用できる現実的な音声を生成することができる。
法医学的帰属法は、音声信号を生成するために使用される特定の音声合成法を特定する。
学習中に見えない新しい合成器に一般化する音声帰属法を提案する。
論文 参考訳(メタデータ) (2022-10-14T05:55:21Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。