論文の概要: AudioJailbreak: Jailbreak Attacks against End-to-End Large Audio-Language Models
- arxiv url: http://arxiv.org/abs/2505.14103v2
- Date: Wed, 21 May 2025 03:36:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 13:19:52.352526
- Title: AudioJailbreak: Jailbreak Attacks against End-to-End Large Audio-Language Models
- Title(参考訳): AudioJailbreak: エンドツーエンドの大規模オーディオランゲージモデルに対するジェイルブレイク攻撃
- Authors: Guangke Chen, Fu Song, Zhe Zhao, Xiaojun Jia, Yang Liu, Yanchen Qiao, Weizhe Zhang,
- Abstract要約: 近年,大規模音声言語モデル (LALM) に対するジェイルブレイク攻撃について検討されている。
本稿では,非同期性,普遍性,ステルス性,強靭性を備えた新しいオーディオジェイルブレイク攻撃であるAudioJailbreakを提案する。
- 参考スコア(独自算出の注目度): 19.59499038333469
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Jailbreak attacks to Large audio-language models (LALMs) are studied recently, but they achieve suboptimal effectiveness, applicability, and practicability, particularly, assuming that the adversary can fully manipulate user prompts. In this work, we first conduct an extensive experiment showing that advanced text jailbreak attacks cannot be easily ported to end-to-end LALMs via text-to speech (TTS) techniques. We then propose AudioJailbreak, a novel audio jailbreak attack, featuring (1) asynchrony: the jailbreak audio does not need to align with user prompts in the time axis by crafting suffixal jailbreak audios; (2) universality: a single jailbreak perturbation is effective for different prompts by incorporating multiple prompts into perturbation generation; (3) stealthiness: the malicious intent of jailbreak audios will not raise the awareness of victims by proposing various intent concealment strategies; and (4) over-the-air robustness: the jailbreak audios remain effective when being played over the air by incorporating the reverberation distortion effect with room impulse response into the generation of the perturbations. In contrast, all prior audio jailbreak attacks cannot offer asynchrony, universality, stealthiness, or over-the-air robustness. Moreover, AudioJailbreak is also applicable to the adversary who cannot fully manipulate user prompts, thus has a much broader attack scenario. Extensive experiments with thus far the most LALMs demonstrate the high effectiveness of AudioJailbreak. We highlight that our work peeks into the security implications of audio jailbreak attacks against LALMs, and realistically fosters improving their security robustness. The implementation and audio samples are available at our website https://audiojailbreak.github.io/AudioJailbreak.
- Abstract(参考訳): 大規模音声言語モデル (LALM) に対するジェイルブレイク攻撃は近年研究されているが、特に敵がユーザプロンプトを完全に操作できると仮定して、準最適効果、適用性、実践性を達成している。
本研究では,テキスト・ツー・スピーチ(TTS)技術を用いて,先進的なテキスト・ジェイルブレイク攻撃をエンドツーエンドのLALMに簡単に移植できないことを示す。
次に,(1)非同期性: ジェイルブレイク・オーディオは,サフィシャル・ジェイルブレイク・オーディオを製作することで,タイム軸のユーザプロンプトと整合する必要がない,(2) 普遍性: 複数のプロンプトを摂動生成に組み込むことによって,異なるプロンプトに対して単一のジェイルブレイク・パーカベーションが有効である,(3) ステルスネス: 様々な意図の隠蔽戦略を提案することによって,ジェイルブレイク・オーディオの悪意が被害者の意識を高めることはない,(4) オーバー・ザ・エアのロバストネス: ジャルブレイク・オーディオは,室内インパルス応答による室内インパルス効果を発生に組み込むことにより,空気上での演奏において有効である。
対照的に、以前のすべてのオーディオジェイルブレイク攻撃は、非同期性、普遍性、ステルス性、または空気の過度な堅牢性を提供することはできない。
さらに、AudioJailbreakは、ユーザのプロンプトを完全に操作できない敵にも適用できます。
これまでに最も多くのLALMを用いた大規模な実験は、AudioJailbreakの有効性を実証している。
私たちは、LALMに対するオーディオジェイルブレイク攻撃のセキュリティへの影響を覗き見し、現実的にセキュリティの堅牢性を向上させることを強調します。
実装とオーディオサンプルは、私たちのWebサイト https://audiojailbreak.github.io/AudioJailbreak.ioで公開されています。
関連論文リスト
- Multilingual and Multi-Accent Jailbreaking of Audio LLMs [19.5428160851918]
Multi-AudioJailは、マルチリンガルおよびマルチアクセントオーディオジェイルブレイクを利用する最初の体系的なフレームワークである。
音の摂動が言語間音声学とどのように相互作用し、ジェイルブレイクの成功率を急上昇させるかを示す。
クロスモーダル・ディフェンスの研究を促進するためにデータセットをリリースする予定です。
論文 参考訳(メタデータ) (2025-04-01T18:12:23Z) - Transferable Ensemble Black-box Jailbreak Attacks on Large Language Models [0.0]
我々は,様々なLSM-as-Attackerメソッドを組み込んだ新しいブラックボックス・ジェイルブレイク攻撃フレームワークを提案する。
本手法は,既存のジェイルブレイク研究と実践から得られた3つの重要な知見に基づいて設計されている。
論文 参考訳(メタデータ) (2024-10-31T01:55:33Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - Efficient Indirect LLM Jailbreak via Multimodal-LLM Jailbreak [62.56901628534646]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃に焦点を当てた。
我々の手法は、効率と有効性の両方の観点から、現在の最先端のジェイルブレイク手法を超越している。
論文 参考訳(メタデータ) (2024-05-30T12:50:32Z) - Voice Jailbreak Attacks Against GPT-4o [27.505874745648498]
GPT-4oの音声モードに対するジェイルブレイク攻撃を初めて系統的に測定した。
本稿では,GPT-4oを人間化した新しいボイスジェイルブレイク攻撃であるVoiceJailbreakを提案する。
論文 参考訳(メタデータ) (2024-05-29T14:07:44Z) - EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models [53.87416566981008]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃の構築と評価を容易にする統合フレームワークであるEasyJailbreakを紹介する。
Selector、Mutator、Constraint、Evaluatorの4つのコンポーネントを使ってJailbreak攻撃を構築する。
10の異なるLSMで検証した結果、さまざまなジェイルブレイク攻撃で平均60%の侵入確率で重大な脆弱性が判明した。
論文 参考訳(メタデータ) (2024-03-18T18:39:53Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。