論文の概要: Audio Jailbreaks in Large Audio-Language Models: Taxonomy, Attack-Defense Analysis, and Cost-Aware Evaluation
- arxiv url: http://arxiv.org/abs/2605.30031v1
- Date: Thu, 28 May 2026 14:53:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.404378
- Title: Audio Jailbreaks in Large Audio-Language Models: Taxonomy, Attack-Defense Analysis, and Cost-Aware Evaluation
- Title(参考訳): 大規模オーディオ言語モデルにおけるオーディオ・ジェイルブレイク:分類学、アタック・ディフェンス分析、コスト・アウェア・アセスメント
- Authors: Bo-Han Feng, Yu-Hsuan Li Liang, Chien-Feng Liu, You-Hsuan Chang, Yun-Nung Chen,
- Abstract要約: 大規模オーディオ言語モデル(LALM)は、トークンレベルのプロンプトから、完全な音声認識から推論パイプラインまで、ジェイルブレイクのリスクを拡大する。
本稿では,LALMジェイルブレイク攻撃と防衛の統一された分類法と制御された実証的評価を提供する。
- 参考スコア(独自算出の注目度): 16.72528638767562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Audio Language Models (LALMs) expand jailbreak risks from token-level prompting to the full speech perception-to-reasoning pipeline, where unsafe behavior can be induced through semantics, acoustic style, signal artifacts, or internal representations. Existing work studies these risks under heterogeneous threat models and evaluation protocols, making it difficult to compare attack practicality or defense utility. This paper provides a unified taxonomy and a controlled empirical evaluation of LALM jailbreak attacks and defenses. We organize prior work into semantic, acoustic, signal, and embedding-layer attacks; guard-based, training-free, and training-based defenses; and cross-modal, audio-native, and interactive benchmarks. We then evaluate representative attacks and defenses across ten open-source LALMs, measuring not only attack success rate but also benign refusal and latency. Our results show that Acoustic Best-of-N reveals strong worst-case audio-space vulnerabilities, Narrative Framing is an effective low-latency semantic threat, and current defenses trade robustness against benign usability. These findings support cost- and utility-aware evaluation as a necessary complement to success-rate-only LALM safety benchmarks.
- Abstract(参考訳): 大規模オーディオ言語モデル(LALM)は、トークンレベルのプロンプトから、セマンティクス、音響スタイル、信号アーティファクト、あるいは内部表現を通じて、安全でない振る舞いを誘発できる完全な音声知覚対推論パイプラインまで、ジェイルブレイクのリスクを拡大する。
既存の研究は、これらのリスクを異種脅威モデルと評価プロトコルの下で研究しており、攻撃実践性や防衛ユーティリティを比較することは困難である。
本稿では,LALMジェイルブレイク攻撃と防衛の統一された分類法と制御された実証的評価を提供する。
事前の作業は、セマンティック、アコースティック、シグナル、埋め込み層攻撃、ガードベース、トレーニングフリー、トレーニングベースディフェンス、クロスモーダル、オーディオネイティブ、インタラクティブなベンチマークにまとめる。
次に,10個のオープンソースLALMに対する代表的攻撃と防御を評価し,攻撃成功率だけでなく,拒否や遅延も測定した。
以上の結果から,アコースティック・ベスト・オブ・Nは音声空間の脆弱性が強く,ナラティブ・フレーミングは効果的な低レイテンシ・セマンティック・脅威であり,現在の防衛力はユーザビリティに対するロバスト性を損なうことが示唆された。
これらの知見は、成功率のみのLALM安全性ベンチマークを補完するために必要なコスト・ユーティリティ・アウェア評価を支援する。
関連論文リスト
- ENJ: Optimizing Noise with Genetic Algorithms to Jailbreak LSMs [61.09812971042288]
進化的騒音ジェイルブレイク(ENJ)
本稿では,環境騒音を受動的干渉から積極的に最適化可能な攻撃キャリアへ変換する遺伝的アルゴリズムを提案する。
複数の主流音声モデルに対する実験により、ENJの攻撃効果は既存のベースライン法よりもかなり優れていることが示された。
論文 参考訳(メタデータ) (2025-09-14T06:39:38Z) - Evaluating Robustness of Large Audio Language Models to Audio Injection: An Empirical Study [5.843063647136238]
本研究は4つの攻撃シナリオにまたがる5つのLALMを系統的に評価する。
単一のモデルはすべての攻撃タイプで他のモデルより一貫して優れています。
命令追従能力とロバスト性の間の負の相関は、命令に厳密に固執するモデルはより感受性が高いことを示唆している。
論文 参考訳(メタデータ) (2025-05-26T07:08:38Z) - Audio Jailbreak: An Open Comprehensive Benchmark for Jailbreaking Large Audio-Language Models [19.373533532464915]
LAMのjailbreak脆弱性を評価するために特別に設計された最初のベンチマークであるAJailBenchを紹介します。
このデータセットを使用して、いくつかの最先端のLAMを評価し、攻撃間で一貫性のある堅牢性を示すものはありません。
以上の結果から, セマンティックに保存された摂動でさえ, 先行するLAMの安全性を著しく低下させる可能性が示唆された。
論文 参考訳(メタデータ) (2025-05-21T11:47:47Z) - SPIRIT: Patching Speech Language Models against Jailbreak Attacks [27.79621464198623]
音声言語モデル(SLM)は、音声命令による自然な対話を可能にする。
我々は、敵の攻撃を分析し、SLMが脱獄攻撃に対してかなり脆弱であることを示す。
セキュリティ向上のために,推論時に介入するポストホック・パッチ・ディフェンスを提案する。
論文 参考訳(メタデータ) (2025-05-18T21:51:24Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。