論文の概要: FORCE: Transferable Visual Jailbreaking Attacks via Feature Over-Reliance CorrEction
- arxiv url: http://arxiv.org/abs/2509.21029v1
- Date: Thu, 25 Sep 2025 11:36:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.870798
- Title: FORCE: Transferable Visual Jailbreaking Attacks via Feature Over-Reliance CorrEction
- Title(参考訳): FORCE: 機能オーバー信頼補正による視覚的脱獄攻撃
- Authors: Runqi Lin, Alasdair Paren, Suqin Yuan, Muyang Li, Philip Torr, Adel Bibi, Tongliang Liu,
- Abstract要約: 視覚的ジェイルブレイク攻撃は、洗練されたテキスト攻撃よりも簡単にオープンソースのMLLMを操作することができる。
これらの攻撃は、非常に限られたクロスモデル転送可能性を示し、クローズドソースMLLMの脆弱性を確実に特定することができない。
本稿では,FORCE(Feature Over-Reliance CorrEction)手法を提案する。
- 参考スコア(独自算出の注目度): 82.6826848085638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The integration of new modalities enhances the capabilities of multimodal large language models (MLLMs) but also introduces additional vulnerabilities. In particular, simple visual jailbreaking attacks can manipulate open-source MLLMs more readily than sophisticated textual attacks. However, these underdeveloped attacks exhibit extremely limited cross-model transferability, failing to reliably identify vulnerabilities in closed-source MLLMs. In this work, we analyse the loss landscape of these jailbreaking attacks and find that the generated attacks tend to reside in high-sharpness regions, whose effectiveness is highly sensitive to even minor parameter changes during transfer. To further explain the high-sharpness localisations, we analyse their feature representations in both the intermediate layers and the spectral domain, revealing an improper reliance on narrow layer representations and semantically poor frequency components. Building on this, we propose a Feature Over-Reliance CorrEction (FORCE) method, which guides the attack to explore broader feasible regions across layer features and rescales the influence of frequency features according to their semantic content. By eliminating non-generalizable reliance on both layer and spectral features, our method discovers flattened feasible regions for visual jailbreaking attacks, thereby improving cross-model transferability. Extensive experiments demonstrate that our approach effectively facilitates visual red-teaming evaluations against closed-source MLLMs.
- Abstract(参考訳): 新たなモダリティの統合により、マルチモーダルな大規模言語モデル(MLLM)の能力が向上すると同時に、新たな脆弱性も導入される。
特に、単純な視覚的ジェイルブレイク攻撃は、洗練されたテキスト攻撃よりも簡単にオープンソースのMLLMを操作することができる。
しかしながら、これらの未発達の攻撃は、非常に限られたクロスモデル転送可能性を示し、クローズドソースMLLMの脆弱性を確実に特定することができない。
本研究では、これらの脱獄攻撃の損失状況を分析し、発生した攻撃は、転送中の小さなパラメータの変化に対して非常に敏感な高シャープな領域に存在する傾向があることを明らかにする。
高シャープな局所化をさらに説明するために、中間層とスペクトル領域の両方における特徴表現を分析し、狭い層表現と意味的に劣る周波数成分への不適切な依存を明らかにする。
そこで本稿では,FORCE(Feature Over-Reliance CorrEction)手法を提案する。FORCE(Feature Over-Reliance CorrEction)手法は,レイヤ特徴の広い領域を探索し,それらの意味的内容に応じて周波数特徴の影響を再スケールする。
そこで本手法では,視覚的ジェイルブレーキング攻撃のためのフラット化可能な領域を発見し,モデル間転送性を向上させる。
大規模な実験により,我々の手法はクローズドソースMLLMに対する視覚的リピート評価を効果的に促進することを示した。
関連論文リスト
- Layer-Wise Perturbations via Sparse Autoencoders for Adversarial Text Generation [4.893110077312707]
本研究では,大規模モデルの解釈可能性を活用するブラックボックス攻撃手法を提案する。
Sparse Feature Perturbation Framework (SFPF) を導入する。
実験結果から,SFPFが生成した対向テキストは,最先端の防御機構をバイパスできることが示された。
論文 参考訳(メタデータ) (2025-08-14T07:12:44Z) - IPBA: Imperceptible Perturbation Backdoor Attack in Federated Self-Supervised Learning [13.337697403537488]
フェデレート自己教師学習(FSSL)は、分散モデリングとラベルなし表現学習の利点を組み合わせたものである。
研究によると、FSSLはバックドア攻撃に弱いままである。
我々はIPBAと呼ばれるFSSLに対する非受容的で効果的なバックドア攻撃手法を提案する。
論文 参考訳(メタデータ) (2025-08-11T14:36:11Z) - Cross-Modal Obfuscation for Jailbreak Attacks on Large Vision-Language Models [11.867355323884217]
本稿では,悪質なプロンプトを視覚的およびテキスト的フラグメントに分解する新しいブラックボックス・ジェイルブレイク攻撃フレームワークを提案する。
我々のアプローチは、調整可能な推論の複雑さをサポートし、以前の攻撃よりもはるかに少ないクエリを必要とし、ステルスと効率の両方を可能にします。
論文 参考訳(メタデータ) (2025-06-20T05:30:25Z) - Transferable Adversarial Attacks on Black-Box Vision-Language Models [63.22532779621001]
敵対的攻撃は、テキストのみのコンテキストとビジョンのみのコンテキストにおいて、オープンソースからプロプライエタリなブラックボックスモデルに移行することができる。
攻撃者は、特定の攻撃者による視覚情報の解釈を誘導するために、摂動を作れます。
普遍的な摂動 -- 広い範囲のイメージに適用可能な修正 -- は、これらの誤解釈を一貫して引き起こすことを発見した。
論文 参考訳(メタデータ) (2025-05-02T06:51:11Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - Revisiting Jailbreaking for Large Language Models: A Representation Engineering Perspective [43.94115802328438]
最近のジェイルブレイク攻撃の急増により、悪意のある入力に晒された場合、Large Language Models(LLM)の重大な脆弱性が明らかになった。
LLMの自己保護能力は,その表現空間内の特定の行動パターンと関係があることが示唆された。
これらのパターンは,数対のコントラストクエリで検出可能であることを示す。
論文 参考訳(メタデータ) (2024-01-12T00:50:04Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。