論文の概要: GRM: Utility-Aware Jailbreak Attacks on Audio LLMs via Gradient-Ratio Masking
- arxiv url: http://arxiv.org/abs/2604.09222v1
- Date: Fri, 10 Apr 2026 11:27:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.834976
- Title: GRM: Utility-Aware Jailbreak Attacks on Audio LLMs via Gradient-Ratio Masking
- Title(参考訳): GRM: グラディエント比マスキングによるオーディオ LLM 上のユーティリティ対応ジェイルブレイク攻撃
- Authors: Yunqiang Wang, Hengyuan Na, Di Wu, Miao Hu, Guocong Quan,
- Abstract要約: 既存のオーディオジェイルブレイク手法は主に、ユーティリティ保存を見越しながらジェイルブレイクの成功を最適化する。
実際には、より強力な攻撃は、しばしば劣化したユーティリティーの犠牲になる。
実用性を考慮した周波数選択型ジェイルブレイクフレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.912676456178024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio large language models (ALLMs) enable rich speech-text interaction, but they also introduce jailbreak vulnerabilities in the audio modality. Existing audio jailbreak methods mainly optimize jailbreak success while overlooking utility preservation, as reflected in transcription quality and question answering performance. In practice, stronger attacks often come at the cost of degraded utility. To study this trade-off, we revisit existing attacks by varying their perturbation coverage in the frequency domain, from partial-band to full-band, and find that broader frequency coverage does not necessarily improve jailbreak performance, while utility consistently deteriorates. This suggests that concentrating perturbation on a subset of bands can yield a better attack-utility trade-off than indiscriminate full-band coverage. Based on this insight, we propose GRM, a utility-aware frequency-selective jailbreak framework. It ranks Mel bands by their attack contribution relative to utility sensitivity, perturbs only a selected subset of bands, and learns a reusable universal perturbation under a semantic-preservation objective. Experiments on four representative ALLMs show that GRM achieves an average Jailbreak Success Rate (JSR) of 88.46% while providing a better attack-utility trade-off than representative baselines. These results highlight the potential of frequency-selective perturbation for better balancing attack effectiveness and utility preservation in audio jailbreak. Content Warning: This paper includes harmful query examples and unsafe model responses.
- Abstract(参考訳): オーディオ大言語モデル(ALLM)は、リッチな音声とテキストのやりとりを可能にするが、オーディオのモダリティにジェイルブレイクの脆弱性も導入する。
既存の音声ジェイルブレイク手法は、主に、筆記品質や質問応答性能に反映されるように、ユーティリティ保存を見越しながら、ジェイルブレイクの成功を最適化する。
実際には、より強力な攻撃は、しばしば劣化したユーティリティーの犠牲になる。
このトレードオフを検討するために、我々は、部分帯域からフルバンドまでの周波数領域における摂動範囲を変化させ、既存の攻撃を再検討し、より広い周波数範囲はジェイルブレイク性能を必ずしも改善しないが、実用性は一貫して悪化することを示した。
これは、バンドのサブセットに摂動を集中させることで、フルバンドのカバーを非差別化するよりも、攻撃ユーティリティのトレードオフがより優れていることを示唆している。
この知見に基づいて,実用性を考慮した周波数選択型ジェイルブレイクフレームワーク GRM を提案する。
効用感度に対する攻撃貢献によってメルバンドをランク付けし、選択されたバンドのサブセットのみを摂動し、意味保存の目的の下で再利用可能な普遍摂動を学ぶ。
4つの代表的なALLMの実験は、GRMが平均で88.46%のジェイルブレイク成功率(JSR)を達成し、代表ベースラインよりも優れた攻撃ユーティリティトレードオフを提供することを示している。
これらの結果から,音声ジェイルブレイクにおける周波数選択的摂動による攻撃効果のバランス改善と実用性維持の可能性が示唆された。
コンテンツ警告: 有害なクエリ例と安全でないモデル応答を含む。
関連論文リスト
- Attention Slipping: A Mechanistic Understanding of Jailbreak Attacks and Defenses in LLMs [61.916827858666906]
私たちは、脱獄攻撃中に起こる普遍的な現象を明らかにします。
Attention Slippingは、勾配ベースのトークン置換、プロンプトレベルのテンプレートリファインメント、コンテキスト内学習など、さまざまなジェイルブレイクメソッドに一貫性があることを示します。
本研究では,温度スケーリングによる注意スコア分布の鮮明化により,注意スライッピングと直接対向する新たな防御法である注意シャープニングを提案する。
論文 参考訳(メタデータ) (2025-07-06T12:19:04Z) - Audio Jailbreak: An Open Comprehensive Benchmark for Jailbreaking Large Audio-Language Models [19.373533532464915]
LAMのjailbreak脆弱性を評価するために特別に設計された最初のベンチマークであるAJailBenchを紹介します。
このデータセットを使用して、いくつかの最先端のLAMを評価し、攻撃間で一貫性のある堅牢性を示すものはありません。
以上の結果から, セマンティックに保存された摂動でさえ, 先行するLAMの安全性を著しく低下させる可能性が示唆された。
論文 参考訳(メタデータ) (2025-05-21T11:47:47Z) - AudioJailbreak: Jailbreak Attacks against End-to-End Large Audio-Language Models [19.59499038333469]
近年,大規模音声言語モデル (LALM) に対するジェイルブレイク攻撃について検討されている。
本稿では,非同期性,普遍性,ステルス性,強靭性を備えた新しいオーディオジェイルブレイク攻撃であるAudioJailbreakを提案する。
論文 参考訳(メタデータ) (2025-05-20T09:10:45Z) - xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - LIAR: Leveraging Inference Time Alignment (Best-of-N) to Jailbreak LLMs in Seconds [98.20826635707341]
ジェイルブレイク攻撃は、慎重に製作されたプロンプトを通じて有害なアウトプットを引き出すことによって、安全に整合したLDMの脆弱性を露呈する。
私たちはジェイルブレイクを推論時のミスアライメントとして捉え、高速でブラックボックスのベスト・オブ・N$サンプリングアタックであるLIARを導入しました。
また、安全アライメント強度を定量化し、最適下界を導出するための理論的「ジェイルブレイクに対する安全ネット」指標も導入する。
論文 参考訳(メタデータ) (2024-12-06T18:02:59Z) - A StrongREJECT for Empty Jailbreaks [72.8807309802266]
StrongREJECTは、ジェイルブレイクのパフォーマンスを評価するための高品質なベンチマークである。
これは、被害者モデルが禁止されたプロンプトに対する応答の有害性を評価する。
それは、ジェイルブレイクの有効性の人間の判断と最先端の合意を達成します。
論文 参考訳(メタデータ) (2024-02-15T18:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。