論文の概要: Synthetic Voices, Real Threats: Evaluating Large Text-to-Speech Models in Generating Harmful Audio
- arxiv url: http://arxiv.org/abs/2511.10913v1
- Date: Fri, 14 Nov 2025 03:00:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.404551
- Title: Synthetic Voices, Real Threats: Evaluating Large Text-to-Speech Models in Generating Harmful Audio
- Title(参考訳): 合成音声, リアル脅威: 有害音声生成における大規模テキスト・音声モデルの評価
- Authors: Guangke Chen, Yuhui Wang, Shouling Ji, Xiapu Luo, Ting Wang,
- Abstract要約: この研究は、TSシステムを利用して有害なコンテンツを含む音声を生成する、コンテンツ中心の脅威を探究する。
HARMGENは、これらの課題に対処する2つのファミリーにまとめられた5つの攻撃群である。
- 参考スコア(独自算出の注目度): 63.18443674004945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern text-to-speech (TTS) systems, particularly those built on Large Audio-Language Models (LALMs), generate high-fidelity speech that faithfully reproduces input text and mimics specified speaker identities. While prior misuse studies have focused on speaker impersonation, this work explores a distinct content-centric threat: exploiting TTS systems to produce speech containing harmful content. Realizing such threats poses two core challenges: (1) LALM safety alignment frequently rejects harmful prompts, yet existing jailbreak attacks are ill-suited for TTS because these systems are designed to faithfully vocalize any input text, and (2) real-world deployment pipelines often employ input/output filters that block harmful text and audio. We present HARMGEN, a suite of five attacks organized into two families that address these challenges. The first family employs semantic obfuscation techniques (Concat, Shuffle) that conceal harmful content within text. The second leverages audio-modality exploits (Read, Spell, Phoneme) that inject harmful content through auxiliary audio channels while maintaining benign textual prompts. Through evaluation across five commercial LALMs-based TTS systems and three datasets spanning two languages, we demonstrate that our attacks substantially reduce refusal rates and increase the toxicity of generated speech. We further assess both reactive countermeasures deployed by audio-streaming platforms and proactive defenses implemented by TTS providers. Our analysis reveals critical vulnerabilities: deepfake detectors underperform on high-fidelity audio; reactive moderation can be circumvented by adversarial perturbations; while proactive moderation detects 57-93% of attacks. Our work highlights a previously underexplored content-centric misuse vector for TTS and underscore the need for robust cross-modal safeguards throughout training and deployment.
- Abstract(参考訳): 現代の音声合成(TTS)システム、特にLarge Audio-Language Models (LALM) 上に構築された音声は、入力テキストを忠実に再現し、特定の話者の身元を模倣する高忠実度音声を生成する。
これまでの誤用研究は、話者の偽造に焦点を当てていたが、この研究は、TTSシステムを利用して有害な内容を含む音声を生成する、明確なコンテンツ中心の脅威を探究した。
LALM安全性アライメントは有害なプロンプトを頻繁に拒否するが、既存のジェイルブレイク攻撃は、入力テキストを忠実に発声するように設計されているため、TSに不適である。
HARMGENは、これらの課題に対処する2つのファミリーにまとめられた5つの攻撃群である。
最初の家族は、テキスト内の有害なコンテンツを隠蔽する意味難読化技術(Concat, Shuffle)を使用している。
第二に、オーディオ・モダリティ(Read、Spell、Phoneme)を利用して、良質なテキストプロンプトを維持しながら補助的なオーディオチャンネルを通じて有害なコンテンツを注入する。
LALMをベースとした5つの商用TSシステムと2つの言語にまたがる3つのデータセットの評価を通じて、我々の攻撃は拒絶率を大幅に低減し、生成した音声の毒性を高めることを実証した。
さらに、音声ストリーミングプラットフォームが展開する反応性対策と、TSプロバイダが実施するプロアクティブディフェンスの両方について評価する。
我々の分析によると、ディープフェイク検出器は高忠実度オーディオで性能が低いこと、反応性のモデレーションは逆の摂動によって回避できること、そして前向きのモデレーションは57-93%の攻撃を検知する。
我々の研究は、TTSの未調査コンテンツ中心の誤用ベクトルを強調し、トレーニングとデプロイメントを通じて堅牢なクロスモーダルセーフガードの必要性を強調しています。
関連論文リスト
- Listening or Reading? Evaluating Speech Awareness in Chain-of-Thought Speech-to-Text Translation [12.571782794778182]
CoT(Chain-of-Thought)プロンプトが導入されており、音声と文字起こしを共同でアクセスすることがこれらの問題を克服すると予想されている。
主に音声の書き起こしに頼りながら、ほとんど音声を生かして、カスケードされた振る舞いを反映していることがわかりました。
直接S2TTデータの追加やノイズのある書き起こし注入といった簡単な訓練介入は、堅牢性を高め、音声の帰属性を高める。
論文 参考訳(メタデータ) (2025-10-03T15:42:38Z) - Audio Jailbreak Attacks: Exposing Vulnerabilities in SpeechGPT in a White-Box Framework [6.002582335323663]
白箱シナリオにおけるMLLM(Multimodal Large Language Models)の音声入力を対象とする逆攻撃を提案する。
本稿では,新たなトークンレベルアタックを導入し,モデルの音声トークン化へのアクセスを活用して,逆トークン列を生成する。
当社のアプローチでは,複数の制限されたタスクに対して,最大99%の攻撃成功率を実現しています。
論文 参考訳(メタデータ) (2025-05-24T20:46:36Z) - Multilingual and Multi-Accent Jailbreaking of Audio LLMs [19.5428160851918]
Multi-AudioJailは、マルチリンガルおよびマルチアクセントオーディオジェイルブレイクを利用する最初の体系的なフレームワークである。
音の摂動が言語間音声学とどのように相互作用し、ジェイルブレイクの成功率を急上昇させるかを示す。
クロスモーダル・ディフェンスの研究を促進するためにデータセットをリリースする予定です。
論文 参考訳(メタデータ) (2025-04-01T18:12:23Z) - Exploiting Vulnerabilities in Speech Translation Systems through Targeted Adversarial Attacks [59.87470192277124]
本稿では,非知覚的音声操作による音声翻訳システム構築手法について検討する。
本研究では,(1)ソース音声への摂動注入,(2)ターゲット翻訳を誘導する対向音楽の生成という2つの革新的なアプローチを提案する。
我々の実験では、注意深く作られた音声摂動は、ターゲットとなる有害な出力を生成するために翻訳モデルを誤解させる可能性があるが、敵対的な音楽はこの目標をより隠蔽的に達成する。
この研究の意味は、直ちにセキュリティ上の懸念を越えて、ニューラル音声処理システムの解釈可能性と堅牢性に光を当てることである。
論文 参考訳(メタデータ) (2025-03-02T16:38:16Z) - Audio Is the Achilles' Heel: Red Teaming Audio Large Multimodal Models [50.89022445197919]
我々は、オープンソースのオーディオLMMが有害な音声質問に対して平均69.14%の攻撃成功率を被っていることを示す。
Gemini-1.5-Proの音声固有のジェイルブレイクは、有害なクエリベンチマークで70.67%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-10-31T12:11:17Z) - A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Speech Translation [48.84039953531355]
同時音声翻訳のための新しい非自己回帰生成フレームワーク(NAST-S2X)を提案する。
NAST-S2Xは、音声テキストと音声音声タスクを統合エンドツーエンドフレームワークに統合する。
3秒未満の遅延で高品質な同時解釈を実現し、オフライン生成において28倍のデコードスピードアップを提供する。
論文 参考訳(メタデータ) (2024-06-11T04:25:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。