論文の概要: ALMGuard: Safety Shortcuts and Where to Find Them as Guardrails for Audio-Language Models
- arxiv url: http://arxiv.org/abs/2510.26096v1
- Date: Thu, 30 Oct 2025 03:19:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.639737
- Title: ALMGuard: Safety Shortcuts and Where to Find Them as Guardrails for Audio-Language Models
- Title(参考訳): ALMGuard:安全ショートカットとオーディオ言語モデルのためのガードレールの場所
- Authors: Weifei Jin, Yuxin Cao, Junjie Su, Minhui Xue, Jie Hao, Ke Xu, Jin Song Dong, Derui Wang,
- Abstract要約: ALMGuardは、ALM(Audio-Language Models)に適した最初の防衛フレームワークである。
安全に整合したショートカットがALMに自然に存在するという仮定に基づいて、普遍的ショートカット活性化摂動(SAP)を識別する手法を設計する。
また,Mel-Gradient Sparse Mask (M-GSM)を提案する。
- 参考スコア(独自算出の注目度): 30.737474893631262
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in Audio-Language Models (ALMs) have significantly improved multimodal understanding capabilities. However, the introduction of the audio modality also brings new and unique vulnerability vectors. Previous studies have proposed jailbreak attacks that specifically target ALMs, revealing that defenses directly transferred from traditional audio adversarial attacks or text-based Large Language Model (LLM) jailbreaks are largely ineffective against these ALM-specific threats. To address this issue, we propose ALMGuard, the first defense framework tailored to ALMs. Based on the assumption that safety-aligned shortcuts naturally exist in ALMs, we design a method to identify universal Shortcut Activation Perturbations (SAPs) that serve as triggers that activate the safety shortcuts to safeguard ALMs at inference time. To better sift out effective triggers while preserving the model's utility on benign tasks, we further propose Mel-Gradient Sparse Mask (M-GSM), which restricts perturbations to Mel-frequency bins that are sensitive to jailbreaks but insensitive to speech understanding. Both theoretical analyses and empirical results demonstrate the robustness of our method against both seen and unseen attacks. Overall, \MethodName reduces the average success rate of advanced ALM-specific jailbreak attacks to 4.6% across four models, while maintaining comparable utility on benign benchmarks, establishing it as the new state of the art. Our code and data are available at https://github.com/WeifeiJin/ALMGuard.
- Abstract(参考訳): 近年のALM(Audio-Language Models)の進歩により,マルチモーダル理解能力は大幅に向上した。
しかし、オーディオモダリティの導入により、新しくユニークな脆弱性ベクターも生まれている。
以前の研究では、ALMを特に標的とするジェイルブレイク攻撃を提案しており、従来のオーディオ敵攻撃やテキストベースのLarge Language Model(LLM)のジェイルブレイクからの防御が、これらのALM固有の脅威に対してほとんど効果がないことが明らかになった。
この問題に対処するため,ALMに合わせた最初の防衛フレームワークであるALMGuardを提案する。
安全に整合したショートカットがALMに自然に存在するという仮定に基づいて,安全なショートカットを起動するトリガーとして,ALMを推論時に保護する万能ショートカット活動摂動(SAP)を識別する手法を設計する。
さらに, ユルブレイクに敏感だが音声理解に敏感なメル周波数ビンに対する摂動を制限するメルグラディエントスパースマスク (M-GSM) を提案する。
理論的解析と実証結果の両方が、我々の手法が目に見えない攻撃と見えない攻撃の両方に対して堅牢であることを示す。
全体として、MethodNameは先進的なALM固有のジェイルブレイク攻撃の平均成功率を4つのモデルで4.6%に減らし、良質なベンチマークで同等のユーティリティを維持し、新しい最先端技術として確立した。
私たちのコードとデータはhttps://github.com/WeifeiJin/ALMGuard.comで公開されています。
関連論文リスト
- CAVGAN: Unifying Jailbreak and Defense of LLMs via Generative Adversarial Attacks on their Internal Representations [9.952498288063532]
セキュリティアライメントにより、Large Language Model(LLM)は悪意のあるクエリに対する保護を得ることができる。
LLMのセキュリティ保護機構を解析し,攻撃と防御を組み合わせた枠組みを提案する。
本手法は, LLM中間層埋め込みの線形分離性, およびジェイルブレイク攻撃の本質に基づく。
論文 参考訳(メタデータ) (2025-07-08T14:45:21Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment [97.38766396447369]
訓練時安全アライメントにもかかわらず、Multimodal Large Language Models (MLLM) はジェイルブレイク攻撃に対して脆弱である。
我々は,ジェイルブレイク攻撃に対する防御のために,制御復号化による安全な報酬モデルを活用する推論時防御フレームワークImmuneを提案する。
論文 参考訳(メタデータ) (2024-11-27T19:00:10Z) - MoJE: Mixture of Jailbreak Experts, Naive Tabular Classifiers as Guard for Prompt Attacks [2.873719680183099]
本稿では,大規模言語モデル(LLM)における脱獄予防の重要性を論じる。
我々は,既存の最先端ガードレールの限界を超えるよう設計された,新しいガードレールアーキテクチャであるMoJEを紹介する。
MoJEは、モデル推論中に最小限の計算オーバーヘッドを維持しながら、ジェイルブレイク攻撃の検出に優れる。
論文 参考訳(メタデータ) (2024-09-26T10:12:19Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。