論文の概要: AudioGuard: Toward Comprehensive Audio Safety Protection Across Diverse Threat Models
- arxiv url: http://arxiv.org/abs/2604.08867v1
- Date: Fri, 10 Apr 2026 02:02:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.634529
- Title: AudioGuard: Toward Comprehensive Audio Safety Protection Across Diverse Threat Models
- Title(参考訳): AudioGuard: さまざまな脅威モデルを対象とした総合的オーディオ安全対策
- Authors: Mintong Kang, Chen Fang, Bo Li,
- Abstract要約: 現実世界のリスクは、オーディオネイティブな有害な音声イベント、話者属性、偽造/発声・閉鎖的誤用にヒンジする可能性がある。
AudioGuardは,1) 波形レベルの音声ネイティブ検出のためのSoundGuardと,2) ポリシーに基づくセマンティック保護のためのContentGuardで構成された,統一されたガードレールである。
- 参考スコア(独自算出の注目度): 17.541986184072773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio has rapidly become a primary interface for foundation models, powering real-time voice assistants. Ensuring safety in audio systems is inherently more complex than just "unsafe text spoken aloud": real-world risks can hinge on audio-native harmful sound events, speaker attributes (e.g., child voice), impersonation/voice-cloning misuse, and voice-content compositional harms, such as child voice plus sexual content. The nature of audio makes it challenging to develop comprehensive benchmarks or guardrails against this unique risk landscape. To close this gap, we conduct large-scale red teaming on audio systems, systematically uncover vulnerabilities in audio, and develop a comprehensive, policy-grounded audio risk taxonomy and AudioSafetyBench, the first policy-based audio safety benchmark across diverse threat models. AudioSafetyBench supports diverse languages, suspicious voices (e.g., celebrity/impersonation and child voice), risky voice-content combinations, and non-speech sound events. To defend against these threats, we propose AudioGuard, a unified guardrail consisting of 1) SoundGuard for waveform-level audio-native detection and 2) ContentGuard for policy-grounded semantic protection. Extensive experiments on AudioSafetyBench and four complementary benchmarks show that AudioGuard consistently improves guardrail accuracy over strong audio-LLM-based baselines with substantially lower latency.
- Abstract(参考訳): オーディオは、ファンデーションモデルの主要なインターフェースとなり、リアルタイム音声アシスタントを駆動している。
現実のリスクは、音声固有の有害な音声イベント、話者属性(例えば、子声)、身振り/声を閉じる誤用、子供の声や性的なコンテンツなどの音声コンテンツにヒンジすることができる。
オーディオの性質は、このユニークなリスクランドスケープに対して包括的なベンチマークやガードレールを開発することを困難にしている。
このギャップを埋めるために、私たちはオーディオシステムの大規模なレッドチーム化を行い、オーディオの脆弱性を体系的に発見し、様々な脅威モデルにまたがる最初のポリシーベースのオーディオ安全ベンチマークであるAudioSafetyBenchを包括的かつポリシーに基づくオーディオリスク分類を開発する。
AudioSafetyBenchは、多様な言語、不審な声(例えば、有名人/人物、子供の声)、危険な音声コンテンツの組み合わせ、非音声音声イベントをサポートする。
これらの脅威に対して防御するために,我々はAudioGuardを提案する。
1)波形レベルの音声ネイティブ検出のためのSoundGuard
2)ポリシーに基づくセマンティック保護のためのContentGuard。
AudioSafetyBenchと4つの補完ベンチマークに関する大規模な実験によると、AudioGuardは、強いオーディオ-LLMベースのベースラインよりもずっと低いレイテンシでガードレールの精度を向上している。
関連論文リスト
- Now You Hear Me: Audio Narrative Attacks Against Large Audio-Language Models [26.648297855855432]
我々は、許可されていない指示を物語スタイルのオーディオストリームに埋め込む、テキストからオーディオへのジェイルブレイクを設計する。
この攻撃は構造的および音響的特性を利用して、主にテキストに校正された安全機構を回避する。
結果は、言語的およびパラ言語的表現を共同で理由づける安全フレームワークの必要性を強調している。
論文 参考訳(メタデータ) (2026-01-30T18:23:02Z) - Synthetic Voices, Real Threats: Evaluating Large Text-to-Speech Models in Generating Harmful Audio [63.18443674004945]
この研究は、TSシステムを利用して有害なコンテンツを含む音声を生成する、コンテンツ中心の脅威を探究する。
HARMGENは、これらの課題に対処する2つのファミリーにまとめられた5つの攻撃群である。
論文 参考訳(メタデータ) (2025-11-14T03:00:04Z) - Speech-Audio Compositional Attacks on Multimodal LLMs and Their Mitigation with SALMONN-Guard [37.736305528135944]
SACRED-Benchを導入し、複雑な音声ベースの攻撃下での大規模言語モデル(LLM)の堅牢性を評価する。
安全判断のための音声,音声,テキストを共同で検査する安全LLMであるSALMONN-Guardを提案する。
論文 参考訳(メタデータ) (2025-11-13T11:50:54Z) - Step-Audio 2 Technical Report [120.58375054866815]
Step-Audio 2は、業界における音声理解と音声会話のために設計された、エンドツーエンドのマルチモーダルな大規模言語モデルである。
遅延オーディオエンコーダと推論中心強化学習(RL)を統合することにより、Step-Audio 2は自動音声認識(ASR)および音声理解において有望な性能を達成する。
論文 参考訳(メタデータ) (2025-07-22T14:23:55Z) - AudioTrust: Benchmarking the Multifaceted Trustworthiness of Audio Large Language Models [125.44235244336623]
オーディオ大言語モデル(ALLMs)は広く採用されているが、信頼性は未定である。
音色,アクセント,背景雑音などの非意味的音響的手がかりから生じるALMの有意な信頼性リスクを同定した。
本稿では,AudioTrustを提案する。
論文 参考訳(メタデータ) (2025-05-22T04:27:46Z) - Audio Is the Achilles' Heel: Red Teaming Audio Large Multimodal Models [50.89022445197919]
我々は、オープンソースのオーディオLMMが有害な音声質問に対して平均69.14%の攻撃成功率を被っていることを示す。
Gemini-1.5-Proの音声固有のジェイルブレイクは、有害なクエリベンチマークで70.67%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-10-31T12:11:17Z) - WaveGuard: Understanding and Mitigating Audio Adversarial Examples [12.010555227327743]
本稿では,ASRシステムに対する敵入力を検出するフレームワークであるWaveGuardを紹介する。
本フレームワークは,音声変換機能を組み込んで原音声と変換音声のasr転写を解析し,逆入力を検出する。
論文 参考訳(メタデータ) (2021-03-04T21:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。