論文の概要: Speech-Audio Compositional Attacks on Multimodal LLMs and Their Mitigation with SALMONN-Guard
- arxiv url: http://arxiv.org/abs/2511.10222v2
- Date: Fri, 14 Nov 2025 16:14:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 14:38:02.273008
- Title: Speech-Audio Compositional Attacks on Multimodal LLMs and Their Mitigation with SALMONN-Guard
- Title(参考訳): マルチモーダルLLMにおける音声・音声合成攻撃とSALMONN-Guardによる軽減
- Authors: Yudong Yang, Xuezhen Zhang, Zhifeng Han, Siyin Wang, Jimin Zhuang, Zengrui Jin, Jing Shao, Guangzhi Sun, Chao Zhang,
- Abstract要約: SACRED-Benchを導入し、複雑な音声ベースの攻撃下での大規模言語モデル(LLM)の堅牢性を評価する。
安全判断のための音声,音声,テキストを共同で検査する安全LLMであるSALMONN-Guardを提案する。
- 参考スコア(独自算出の注目度): 37.736305528135944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in large language models (LLMs) has enabled understanding of both speech and non-speech audio, but exposing new safety risks emerging from complex audio inputs that are inadequately handled by current safeguards. We introduce SACRED-Bench (Speech-Audio Composition for RED-teaming) to evaluate the robustness of LLMs under complex audio-based attacks. Unlike existing perturbation-based methods that rely on noise optimization or white-box access, SACRED-Bench exploits speech-audio composition mechanisms. SACRED-Bench adopts three mechanisms: (a) speech overlap and multi-speaker dialogue, which embeds harmful prompts beneath or alongside benign speech; (b) speech-audio mixture, which imply unsafe intent via non-speech audio alongside benign speech or audio; and (c) diverse spoken instruction formats (open-ended QA, yes/no) that evade text-only filters. Experiments show that, even Gemini 2.5 Pro, the state-of-the-art proprietary LLM, still exhibits 66% attack success rate in SACRED-Bench test set, exposing vulnerabilities under cross-modal, speech-audio composition attacks. To bridge this gap, we propose SALMONN-Guard, a safeguard LLM that jointly inspects speech, audio, and text for safety judgments, reducing attack success down to 20%. Our results highlight the need for audio-aware defenses for the safety of multimodal LLMs. The benchmark and SALMONN-Guard checkpoints can be found at https://huggingface.co/datasets/tsinghua-ee/SACRED-Bench. Warning: this paper includes examples that may be offensive or harmful.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩により、音声と非音声の両方の理解が可能になったが、現在の安全対策が不十分な複雑な音声入力から生じる新たな安全性リスクが明らかにされた。
SACRED-Bench (Speech-Audio composition for RED-teaming) を導入し、複雑な音声による攻撃下でのLSMの堅牢性を評価する。
ノイズ最適化やホワイトボックスアクセスに依存する既存の摂動法とは異なり、SACRED-Benchは音声合成機構を利用する。
SACRED-Benchは3つのメカニズムを採用する。
(a)音声の重なりと多話者対話で、良心的発話のなかに有害なプロンプトを埋め込む。
(b)音声・音声の混合で、良質な音声・音声とともに、非音声音声による安全でない意図を示唆する
(c) テキストのみのフィルタを回避する多様な音声命令形式(オープンエンドQA, yes/no)。
実験によると、最先端のプロプライエタリなLLMであるGemini 2.5 Proでさえ、SACRED-Benchテストセットで66%の攻撃成功率を示しており、クロスモーダルな音声合成攻撃の下で脆弱性を暴露している。
このギャップを埋めるため,安全判断のために音声,音声,テキストを共同で検査し,攻撃成功率を20%に抑える安全LLMであるSALMONN-Guardを提案する。
以上の結果から,マルチモーダルLLMの安全のためのオーディオ対応ディフェンスの必要性が浮き彫りになった。
ベンチマークとSALMONN-Guardチェックポイントはhttps://huggingface.co/datasets/tsinghua-ee/SACRED-Benchで見ることができる。
警告: 攻撃的あるいは有害な例を含む。
関連論文リスト
- What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study [58.55905182336196]
音声言語モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。
LLM中心のSLMにおける音声トークン化設計の役割について検討し,音声ヘッドと話者モデルを用いて検討した。
SLMにマルチトークン予測(MTP)を導入し、各隠れ状態が複数の音声トークンを復号化できるようにする。
論文 参考訳(メタデータ) (2025-06-14T15:26:31Z) - Con Instruction: Universal Jailbreaking of Multimodal Large Language Models via Non-Textual Modalities [76.9327488986162]
既存のマルチモーダル言語モデル(MLLM)に対する攻撃は、主に敵対的な画像を伴うテキストを通して指示を伝える。
我々はMLLMの能力を利用して、非テキスト命令、具体的には、我々の新しい手法であるCon Instructionによって生成された逆画像やオーディオを解釈する。
LLaVA-v1.5 (13B)で81.3%,86.6%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2025-05-31T13:11:14Z) - Audio Jailbreak Attacks: Exposing Vulnerabilities in SpeechGPT in a White-Box Framework [6.002582335323663]
白箱シナリオにおけるMLLM(Multimodal Large Language Models)の音声入力を対象とする逆攻撃を提案する。
本稿では,新たなトークンレベルアタックを導入し,モデルの音声トークン化へのアクセスを活用して,逆トークン列を生成する。
当社のアプローチでは,複数の制限されたタスクに対して,最大99%の攻撃成功率を実現しています。
論文 参考訳(メタデータ) (2025-05-24T20:46:36Z) - JALMBench: Benchmarking Jailbreak Vulnerabilities in Audio Language Models [27.65513116994074]
本稿では,JALMBenchを提案する。JALMBenchは,聴覚言語モデル(ALM)のジェイルブレイク攻撃に対する安全性を評価するベンチマークである。
JALMBenchには、11,316のテキストサンプルと、1,000時間以上の245,355のオーディオサンプルを含むデータセットが含まれている。
JALMBenchを用いて、攻撃効率、話題感度、音声の多様性、アーキテクチャを詳細に分析する。
論文 参考訳(メタデータ) (2025-05-23T07:29:55Z) - Multilingual and Multi-Accent Jailbreaking of Audio LLMs [19.5428160851918]
Multi-AudioJailは、マルチリンガルおよびマルチアクセントオーディオジェイルブレイクを利用する最初の体系的なフレームワークである。
音の摂動が言語間音声学とどのように相互作用し、ジェイルブレイクの成功率を急上昇させるかを示す。
クロスモーダル・ディフェンスの研究を促進するためにデータセットをリリースする予定です。
論文 参考訳(メタデータ) (2025-04-01T18:12:23Z) - Audio Is the Achilles' Heel: Red Teaming Audio Large Multimodal Models [50.89022445197919]
我々は、オープンソースのオーディオLMMが有害な音声質問に対して平均69.14%の攻撃成功率を被っていることを示す。
Gemini-1.5-Proの音声固有のジェイルブレイクは、有害なクエリベンチマークで70.67%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-10-31T12:11:17Z) - SpeechGen: Unlocking the Generative Power of Speech Language Models with
Prompts [108.04306136086807]
本稿では,SpeechGenと呼ばれる統合フレームワークを用いて,各種タスクの音声LMを刺激するための即時チューニングの適用について検討する。
提案した統合フレームワークは効率と有効性に大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-03T22:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。