論文の概要: Making Every Step Effective: Jailbreaking Large Vision-Language Models Through Hierarchical KV Equalization
- arxiv url: http://arxiv.org/abs/2503.11750v1
- Date: Fri, 14 Mar 2025 17:57:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:32:41.644599
- Title: Making Every Step Effective: Jailbreaking Large Vision-Language Models Through Hierarchical KV Equalization
- Title(参考訳): すべてのステップを効果的にする:階層的KV等化による大規模ビジョンランゲージモデルの脱獄
- Authors: Shuyang Hao, Yiwei Wang, Bryan Hooi, Jun Liu, Muhao Chen, Zi Huang, Yujun Cai,
- Abstract要約: HKVE (Hierarchical Key-Value Equalization) は、勾配最適化結果を選択的に受け入れる革新的なジェイルブレイクフレームワークである。
HKVEは既存の手法を20.43%,21.01%,26.43%のマージンで大幅に上回った。
- 参考スコア(独自算出の注目度): 74.78433600288776
- License:
- Abstract: In the realm of large vision-language models (LVLMs), adversarial jailbreak attacks serve as a red-teaming approach to identify safety vulnerabilities of these models and their associated defense mechanisms. However, we identify a critical limitation: not every adversarial optimization step leads to a positive outcome, and indiscriminately accepting optimization results at each step may reduce the overall attack success rate. To address this challenge, we introduce HKVE (Hierarchical Key-Value Equalization), an innovative jailbreaking framework that selectively accepts gradient optimization results based on the distribution of attention scores across different layers, ensuring that every optimization step positively contributes to the attack. Extensive experiments demonstrate HKVE's significant effectiveness, achieving attack success rates of 75.08% on MiniGPT4, 85.84% on LLaVA and 81.00% on Qwen-VL, substantially outperforming existing methods by margins of 20.43\%, 21.01\% and 26.43\% respectively. Furthermore, making every step effective not only leads to an increase in attack success rate but also allows for a reduction in the number of iterations, thereby lowering computational costs. Warning: This paper contains potentially harmful example data.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)の領域では、敵のジェイルブレイク攻撃は、これらのモデルとその関連する防御機構の安全性上の脆弱性を特定するために、レッドチーム方式として機能する。
しかし、全ての敵最適化ステップが肯定的な結果をもたらすわけではなく、各ステップで無差別に最適化結果を受け入れることは、全体的な攻撃成功率を低下させる可能性がある。
この課題に対処するために、HKVE (Hierarchical Key-Value Equalization) を導入し、異なる層にまたがる注意点の分布に基づいて、勾配最適化結果を選択的に受け入れ、全ての最適化が攻撃に肯定的な寄与を確実にする、革新的なジェイルブレイクフレームワークを紹介した。
大規模な実験は、HKVEの顕著な効果を示し、MiniGPT4で75.08%、LLaVAで85.84%、Qwen-VLで81.00%、既存の手法で20.43\%、21.01\%、26.43\%で大幅に上回った。
さらに、すべてのステップを効果的にすることで、攻撃の成功率の増加だけでなく、反復回数の削減を可能にし、計算コストを削減できる。
警告: この論文は潜在的に有害なサンプルデータを含んでいる。
関連論文リスト
- Learning Conformal Abstention Policies for Adaptive Risk Management in Large Language and Vision-Language Models [3.958317527488534]
大きな言語と視覚言語モデル(LLMs/VLMs)は、安全クリティカルなアプリケーションでますます使われている。
不確かさの定量化は、予測の信頼性を評価するのに役立ち、不確実性が高い場合の回避を可能にする。
本稿では,学習可能な禁忌法を提案し,強化学習(RL)と整形予測(CP)を統合して禁忌閾値を最適化する。
論文 参考訳(メタデータ) (2025-02-08T21:30:41Z) - GRAPE: Generalizing Robot Policy via Preference Alignment [58.419992317452376]
GRAPE: 優先度アライメントによるロボット政策の一般化について述べる。
GRAPEはドメイン内および未確認操作タスクにおける成功率をそれぞれ51.79%、58.20%向上させる。
GRAPEは安全性や効率、衝突速度の37.44%、ロールアウト長さの11.15%といった様々な目標に合わせることができる。
論文 参考訳(メタデータ) (2024-11-28T18:30:10Z) - Exploring Visual Vulnerabilities via Multi-Loss Adversarial Search for Jailbreaking Vision-Language Models [92.79804303337522]
VLM(Vision-Language Models)は、安全アライメントの問題に対して脆弱である。
本稿では、シナリオ認識画像生成を利用したセマンティックアライメントのための新しいジェイルブレイクフレームワークであるMLAIを紹介する。
大規模な実験はMLAIの重大な影響を示し、MiniGPT-4で77.75%、LLaVA-2で82.80%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-11-27T02:40:29Z) - Layer Pruning with Consensus: A Triple-Win Solution [0.0]
レイヤ・プルーニングのアプローチは、しばしば、レイヤの複雑な基盤となる特性を完全に捉えない単一の基準に依存します。
本稿では,複数の類似度指標を,コンセンサス基準(Consensus criterion)と呼ばれる低重要層の単一の表現尺度に組み合わせた新しい手法を提案する。
本手法は,低精度低下,高性能化,敵攻撃に対するロバスト性の向上という3つの解を提供する。
論文 参考訳(メタデータ) (2024-11-21T17:41:27Z) - Improved Generation of Adversarial Examples Against Safety-aligned LLMs [72.38072942860309]
勾配に基づく手法を用いて生成した敵対的プロンプトは、安全対応のLDMに対して自動ジェイルブレイク攻撃を行う際、優れた性能を示す。
本稿では,この問題に対する新たな視点を探求し,トランスファーベースの攻撃にインスパイアされたイノベーションを活用することで緩和できることを示唆する。
この組み合わせによって生成されたクエリ固有逆接接尾辞の87%がLlama-2-7B-Chatを誘導し、AdvBench上のターゲット文字列と正確に一致する出力を生成することを示した。
論文 参考訳(メタデータ) (2024-05-28T06:10:12Z) - Lockpicking LLMs: A Logit-Based Jailbreak Using Token-level Manipulation [15.928341917085467]
JailMineは、大規模な言語モデルから悪意ある応答を引き出すために、自動化された"マイニング"プロセスを採用している。
JailMineの有効性と効率を実証し、使用時間の86%の大幅な削減を実現した。
論文 参考訳(メタデータ) (2024-05-20T17:17:55Z) - G$^2$uardFL: Safeguarding Federated Learning Against Backdoor Attacks
through Attributed Client Graph Clustering [116.4277292854053]
Federated Learning (FL)は、データ共有なしで協調的なモデルトレーニングを提供する。
FLはバックドア攻撃に弱いため、有害なモデル重みがシステムの整合性を損なう。
本稿では、悪意のあるクライアントの識別を属性グラフクラスタリング問題として再解釈する保護フレームワークであるG$2$uardFLを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:15:04Z) - FLIP: A Provable Defense Framework for Backdoor Mitigation in Federated
Learning [66.56240101249803]
我々は,クライアントの強固化がグローバルモデル(および悪意のあるクライアント)に与える影響について検討する。
本稿では, 逆エンジニアリングによる防御手法を提案するとともに, 堅牢性を保証して, 改良を実現できることを示す。
競合する8つのSOTA防御法について, 単発および連続のFLバックドア攻撃に対して, 提案手法の実証的優位性を示した。
論文 参考訳(メタデータ) (2022-10-23T22:24:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。