論文の概要: Audio Jailbreak: An Open Comprehensive Benchmark for Jailbreaking Large Audio-Language Models
- arxiv url: http://arxiv.org/abs/2505.15406v1
- Date: Wed, 21 May 2025 11:47:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.603578
- Title: Audio Jailbreak: An Open Comprehensive Benchmark for Jailbreaking Large Audio-Language Models
- Title(参考訳): オーディオ・ジェイルブレイク:大規模オーディオ・ランゲージ・モデルのジェイルブレークのための総合ベンチマーク
- Authors: Zirui Song, Qian Jiang, Mingxuan Cui, Mingzhe Li, Lang Gao, Zeyu Zhang, Zixiang Xu, Yanbo Wang, Chenxi Wang, Guangxian Ouyang, Zhenhao Chen, Xiuying Chen,
- Abstract要約: LAMのjailbreak脆弱性を評価するために特別に設計された最初のベンチマークであるAJailBenchを紹介します。
このデータセットを使用して、いくつかの最先端のLAMを評価し、攻撃間で一貫性のある堅牢性を示すものはありません。
以上の結果から, セマンティックに保存された摂動でさえ, 先行するLAMの安全性を著しく低下させる可能性が示唆された。
- 参考スコア(独自算出の注目度): 19.373533532464915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rise of Large Audio Language Models (LAMs) brings both potential and risks, as their audio outputs may contain harmful or unethical content. However, current research lacks a systematic, quantitative evaluation of LAM safety especially against jailbreak attacks, which are challenging due to the temporal and semantic nature of speech. To bridge this gap, we introduce AJailBench, the first benchmark specifically designed to evaluate jailbreak vulnerabilities in LAMs. We begin by constructing AJailBench-Base, a dataset of 1,495 adversarial audio prompts spanning 10 policy-violating categories, converted from textual jailbreak attacks using realistic text to speech synthesis. Using this dataset, we evaluate several state-of-the-art LAMs and reveal that none exhibit consistent robustness across attacks. To further strengthen jailbreak testing and simulate more realistic attack conditions, we propose a method to generate dynamic adversarial variants. Our Audio Perturbation Toolkit (APT) applies targeted distortions across time, frequency, and amplitude domains. To preserve the original jailbreak intent, we enforce a semantic consistency constraint and employ Bayesian optimization to efficiently search for perturbations that are both subtle and highly effective. This results in AJailBench-APT, an extended dataset of optimized adversarial audio samples. Our findings demonstrate that even small, semantically preserved perturbations can significantly reduce the safety performance of leading LAMs, underscoring the need for more robust and semantically aware defense mechanisms.
- Abstract(参考訳): LAM(Large Audio Language Models)の台頭は、オーディオ出力が有害または非倫理的コンテンツを含む可能性があるため、潜在的なリスクとリスクの両方をもたらす。
しかしながら、現在の研究は、特にジェイルブレイク攻撃に対するLAMの安全性の体系的、定量的評価を欠いている。
このギャップを埋めるために、私たちはAMのjailbreak脆弱性を評価するために特別に設計された最初のベンチマークであるAJailBenchを紹介します。
AJailBench-Baseは10のポリシー違反カテゴリにまたがる1,495の敵対的音声プロンプトのデータセットで、現実的なテキストから音声合成へ変換されたテキストジェイルブレイク攻撃から始まります。
このデータセットを用いて、いくつかの最先端のLAMを評価し、攻撃間に一貫した堅牢性は示さないことを明らかにした。
さらにジェイルブレイクテストを強化し、より現実的な攻撃条件をシミュレートするために、動的対角変形を生成する方法を提案する。
我々のAudio Perturbation Toolkit (APT) は時間、周波数、振幅領域を対象とする歪みを適用している。
本来のジェイルブレイク意図を維持するために,意味的一貫性の制約を強制し,ベイズ最適化を用いて,微妙かつ高効率な摂動を効率的に探索する。
その結果、AJailBench-APTは、最適化された敵対的オーディオサンプルの拡張データセットである。
以上の結果から, セマンティックに保存された微小な摂動でさえ, 先進的なLAMの安全性を著しく低下させ, より堅牢でセマンティックな防御機構の必要性を浮き彫りにした。
関連論文リスト
- AudioJailbreak: Jailbreak Attacks against End-to-End Large Audio-Language Models [19.59499038333469]
近年,大規模音声言語モデル (LALM) に対するジェイルブレイク攻撃について検討されている。
本稿では,非同期性,普遍性,ステルス性,強靭性を備えた新しいオーディオジェイルブレイク攻撃であるAudioJailbreakを提案する。
論文 参考訳(メタデータ) (2025-05-20T09:10:45Z) - SPIRIT: Patching Speech Language Models against Jailbreak Attacks [21.299244714520828]
音声言語モデル(SLM)は、音声命令による自然な対話を可能にする。
我々は、敵の攻撃を分析し、SLMが脱獄攻撃に対してかなり脆弱であることを示す。
セキュリティ向上のために,推論時に介入するポストホック・パッチ・ディフェンスを提案する。
論文 参考訳(メタデータ) (2025-05-18T21:51:24Z) - Multilingual and Multi-Accent Jailbreaking of Audio LLMs [19.5428160851918]
Multi-AudioJailは、マルチリンガルおよびマルチアクセントオーディオジェイルブレイクを利用する最初の体系的なフレームワークである。
音の摂動が言語間音声学とどのように相互作用し、ジェイルブレイクの成功率を急上昇させるかを示す。
クロスモーダル・ディフェンスの研究を促進するためにデータセットをリリースする予定です。
論文 参考訳(メタデータ) (2025-04-01T18:12:23Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - h4rm3l: A language for Composable Jailbreak Attack Synthesis [48.5611060845958]
h4rm3lは、人間が読めるドメイン固有言語とのギャップに対処する新しいアプローチである。
我々は、h4rm3lの合成攻撃は、文献における既存のジェイルブレイク攻撃よりも多様で、より成功していることを示す。
論文 参考訳(メタデータ) (2024-08-09T01:45:39Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models [123.66104233291065]
ジェイルブレイク攻撃は、大きな言語モデル(LLM)が有害、非倫理的、またはその他の不快なコンテンツを生成する原因となる。
これらの攻撃を評価することは、現在のベンチマークと評価テクニックの収集が適切に対処していない、多くの課題を提示します。
JailbreakBenchは、以下のコンポーネントを備えたオープンソースのベンチマークである。
論文 参考訳(メタデータ) (2024-03-28T02:44:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。