論文の概要: Alphabet Index Mapping: Jailbreaking LLMs through Semantic Dissimilarity
- arxiv url: http://arxiv.org/abs/2506.12685v1
- Date: Sun, 15 Jun 2025 01:59:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.695077
- Title: Alphabet Index Mapping: Jailbreaking LLMs through Semantic Dissimilarity
- Title(参考訳): Alphabetのインデックスマッピング: セマンティックな相違によるLLMの脱獄
- Authors: Bilal Saleh Husain,
- Abstract要約: 本稿では, 簡易な擬態性を維持しつつ, 意味的相違を最大化する新たな敵攻撃, Alphabet Index Mapping (AIM) を提案する。
以上の結果から, 意味的相違が重要である一方で, 単純復号化とのバランスがジェイルブレイクの成功の鍵であることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities, yet their susceptibility to adversarial attacks, particularly jailbreaking, poses significant safety and ethical concerns. While numerous jailbreak methods exist, many suffer from computational expense, high token usage, or complex decoding schemes. Liu et al. (2024) introduced FlipAttack, a black-box method that achieves high attack success rates (ASR) through simple prompt manipulation. This paper investigates the underlying mechanisms of FlipAttack's effectiveness by analyzing the semantic changes induced by its flipping modes. We hypothesize that semantic dissimilarity between original and manipulated prompts is inversely correlated with ASR. To test this, we examine embedding space visualizations (UMAP, KDE) and cosine similarities for FlipAttack's modes. Furthermore, we introduce a novel adversarial attack, Alphabet Index Mapping (AIM), designed to maximize semantic dissimilarity while maintaining simple decodability. Experiments on GPT-4 using a subset of AdvBench show AIM and its variant AIM+FWO achieve a 94% ASR, outperforming FlipAttack and other methods on this subset. Our findings suggest that while high semantic dissimilarity is crucial, a balance with decoding simplicity is key for successful jailbreaking. This work contributes to a deeper understanding of adversarial prompt mechanics and offers a new, effective jailbreak technique.
- Abstract(参考訳): 大規模言語モデル(LLM)は目覚ましい能力を示しているが、敵の攻撃、特に脱獄に対する感受性は、重大な安全性と倫理上の懸念を生じさせている。
多くのジェイルブレイク法が存在するが、多くは計算コスト、高いトークンの使用、複雑な復号法に悩まされている。
Liu et al (2024)は、単純なプロンプト操作によって高い攻撃成功率(ASR)を達成するブラックボックス手法であるFlipAttackを導入した。
本稿では,フリップアタックの有効性のメカニズムを,フリップモードによって引き起こされる意味変化を解析することによって解明する。
我々は、原文と操作されたプロンプト間の意味的相違は、ASRと逆相関していると仮定する。
そこで本研究では,FlipAttackモードの埋め込み空間可視化(UMAP,KDE)とコサイン類似性を検証した。
さらに,本研究では,簡易な擬態性を維持しつつ,意味的相違を最大化する新たな敵攻撃であるAlphabet Index Mapping (AIM)を導入する。
AdvBench のサブセットを用いた GPT-4 の実験では、AIM とその変種 AIM+FWO が 94% の ASR を達成し、FlipAttack や他の手法よりも優れていた。
以上の結果から, 意味的相違が重要である一方で, 単純復号化とのバランスがジェイルブレイクの成功の鍵であることが示唆された。
この研究は、敵の衝動力学の深い理解に寄与し、新しい効果的なジェイルブレイク技術を提供する。
関連論文リスト
- xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Stochastic Monkeys at Play: Random Augmentations Cheaply Break LLM Safety Alignment [16.5939079098358]
本稿では,入力に対する単純なランダムな拡張が,最先端のLCMにおける安全アライメントの有効性にどのように影響するかを検討する。
低リソース・無知な攻撃者は1プロンプト当たり25のランダムな拡張でアライメントを回避できる可能性を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2024-11-05T03:51:13Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。