論文の概要: The Alignment Curse: Cross-Modality Jailbreak Transfer in Omni-Models
- arxiv url: http://arxiv.org/abs/2602.02557v1
- Date: Fri, 30 Jan 2026 14:23:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:14.931044
- Title: The Alignment Curse: Cross-Modality Jailbreak Transfer in Omni-Models
- Title(参考訳): アライメント・カース:Omni-Modelにおけるクロスモダリティ・ジェイルブレイク・トランスファー
- Authors: Yupeng Chen, Junchi Yu, Aoxi Liu, Philip Torr, Adel Bibi,
- Abstract要約: テキストからオーディオへのジェイルブレイク攻撃の相互モダリティの伝達は、過小評価されている。
テキスト転送されたオーディオジェイルブレイクは、オーディオベースのジェイルブレイクと相容れないパフォーマンスを示します。
- 参考スコア(独自算出の注目度): 45.318255366335194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in end-to-end trained omni-models have significantly improved multimodal understanding. At the same time, safety red-teaming has expanded beyond text to encompass audio-based jailbreak attacks. However, an important bridge between textual and audio jailbreaks remains underexplored. In this work, we study the cross-modality transfer of jailbreak attacks from text to audio, motivated by the semantic similarity between the two modalities and the maturity of textual jailbreak methods. We first analyze the connection between modality alignment and cross-modality jailbreak transfer, showing that strong alignment can inadvertently propagate textual vulnerabilities to the audio modality, which we term the alignment curse. Guided by this analysis, we conduct an empirical evaluation of textual jailbreaks, text-transferred audio jailbreaks, and existing audio-based jailbreaks on recent omni-models. Our results show that text-transferred audio jailbreaks perform comparably to, and often better than, audio-based jailbreaks, establishing them as simple yet powerful baselines for future audio red-teaming. We further demonstrate strong cross-model transferability and show that text-transferred audio attacks remain effective even under a stricter audio-only access threat model.
- Abstract(参考訳): エンド・ツー・エンドのオムニモデルの最近の進歩は、マルチモーダル理解を著しく改善した。
同時に、セーフティ・リピートはテキストを超えて、オーディオベースのジェイルブレイク攻撃を含むように拡張されている。
しかし、テキストとオーディオのジェイルブレイクの間に重要な橋がまだ調査されていない。
本研究では,テキストから音声へのジェイルブレイク攻撃の相互モダリティ伝達について検討し,この2つのモダリティのセマンティックな類似性と,テキストによるジェイルブレイク手法の成熟性に着目した。
まず,アライメント・アライメントとアライメント・アライメント間のジェイルブレイク・トランスファーの関連性を解析し,アライメント・アライメント・アライメント(アライメント・アライメント・アライメント・アライメント)とアライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・ア
この分析により,最近のOmniモデルにおいて,テキスト・ジェイルブレイク,テキスト・トランスファーされたオーディオ・ジェイルブレイク,および既存のオーディオ・ベース・ジェイルブレイクの実証評価を行った。
以上の結果から,テキスト転送された音声ジェイルブレイクは,音声ベースのジェイルブレイクと相容れない性能を示し,将来的な音声リピートのためのシンプルかつ強力なベースラインとして確立した。
さらに、強いクロスモデル転送可能性を示し、より厳密な音声のみアクセス脅威モデルの下でも、テキスト転送による音声攻撃が有効であることを示す。
関連論文リスト
- LLM Jailbreak Detection for (Almost) Free! [62.466970731998714]
大規模言語モデル(LLM)は、広く使用されている場合、アライメントを通じてセキュリティを高めるが、ジェイルブレイク攻撃の影響を受けない。
ジェイルブレイク検出方法は、他のモデルや複数のモデル推論の助けを借りて、ジェイルブレイク攻撃を緩和する。
本稿では,入力に対する肯定的な指示を前提としたフリージェイルブレイク検出(FJD)を提案する。
論文 参考訳(メタデータ) (2025-09-18T02:42:52Z) - Many-Turn Jailbreaking [65.04921693379944]
そこで本研究では,JailbreakされたLLMを1つ以上のターゲットクエリで連続的にテストするマルチターンジェイルブレイクについて検討する。
我々は、一連のオープンソースモデルとクローズドソースモデルでこの設定をベンチマークするために、Multi-Turn Jailbreak Benchmark (MTJ-Bench)を構築した。
論文 参考訳(メタデータ) (2025-08-09T00:02:39Z) - Test-Time Immunization: A Universal Defense Framework Against Jailbreaks for (Multimodal) Large Language Models [80.66766532477973]
テストタイム免疫(TIM)は、自己進化的な方法で様々なジェイルブレイク攻撃に対して適応的に防御することができる。
テストタイム免疫(TIM)は、自己進化的な方法で様々なジェイルブレイク攻撃に対して適応的に防御することができる。
論文 参考訳(メタデータ) (2025-05-28T11:57:46Z) - Audio Jailbreak: An Open Comprehensive Benchmark for Jailbreaking Large Audio-Language Models [19.373533532464915]
LAMのjailbreak脆弱性を評価するために特別に設計された最初のベンチマークであるAJailBenchを紹介します。
このデータセットを使用して、いくつかの最先端のLAMを評価し、攻撃間で一貫性のある堅牢性を示すものはありません。
以上の結果から, セマンティックに保存された摂動でさえ, 先行するLAMの安全性を著しく低下させる可能性が示唆された。
論文 参考訳(メタデータ) (2025-05-21T11:47:47Z) - AudioJailbreak: Jailbreak Attacks against End-to-End Large Audio-Language Models [19.59499038333469]
近年,大規模音声言語モデル (LALM) に対するジェイルブレイク攻撃について検討されている。
本稿では,非同期性,普遍性,ステルス性,強靭性を備えた新しいオーディオジェイルブレイク攻撃であるAudioJailbreakを提案する。
論文 参考訳(メタデータ) (2025-05-20T09:10:45Z) - Jailbreak-AudioBench: In-Depth Evaluation and Analysis of Jailbreak Threats for Large Audio Language Models [35.884976768636726]
大規模言語モデル(LLM)は、広範囲の自然言語処理タスクで印象的なゼロショット性能を示す。
様々なモダリティエンコーダを統合することで、テキストだけでなく視覚や聴覚のモダリティ入力を処理するマルチモーダル大言語モデル(MLLM)が生まれる。
これらの高度な機能は、ジェイルブレイク攻撃を通じて有害または不適切なコンテンツを生成するためにモデルを利用することができるため、重大なセキュリティリスクを引き起こす可能性がある。
論文 参考訳(メタデータ) (2025-01-23T15:51:38Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models [123.66104233291065]
ジェイルブレイク攻撃は、大きな言語モデル(LLM)が有害、非倫理的、またはその他の不快なコンテンツを生成する原因となる。
これらの攻撃を評価することは、現在のベンチマークと評価テクニックの収集が適切に対処していない、多くの課題を提示します。
JailbreakBenchは、以下のコンポーネントを備えたオープンソースのベンチマークである。
論文 参考訳(メタデータ) (2024-03-28T02:44:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。