論文の概要: Activation-Guided Local Editing for Jailbreaking Attacks
- arxiv url: http://arxiv.org/abs/2508.00555v1
- Date: Fri, 01 Aug 2025 11:52:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.863044
- Title: Activation-Guided Local Editing for Jailbreaking Attacks
- Title(参考訳): 脱獄攻撃に対するアクティベーションガイドによる局所編集
- Authors: Jiecong Wang, Haoran Li, Hao Peng, Ziqian Zeng, Zihao Wang, Haohua Du, Zhengtao Yu,
- Abstract要約: トークンレベルのジェイルブレイク攻撃は、しばしば不整合または読めない入力を生み出す。
即時攻撃はスケーラビリティに欠けており、手作業や人間の創造性に大きく依存している。
本稿では,これらのアプローチの利点を組み合わせた,簡潔で効果的な2段階のフレームワークを提案する。
- 参考スコア(独自算出の注目度): 33.13949817155855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Jailbreaking is an essential adversarial technique for red-teaming these models to uncover and patch security flaws. However, existing jailbreak methods face significant drawbacks. Token-level jailbreak attacks often produce incoherent or unreadable inputs and exhibit poor transferability, while prompt-level attacks lack scalability and rely heavily on manual effort and human ingenuity. We propose a concise and effective two-stage framework that combines the advantages of these approaches. The first stage performs a scenario-based generation of context and rephrases the original malicious query to obscure its harmful intent. The second stage then utilizes information from the model's hidden states to guide fine-grained edits, effectively steering the model's internal representation of the input from a malicious toward a benign one. Extensive experiments demonstrate that this method achieves state-of-the-art Attack Success Rate, with gains of up to 37.74% over the strongest baseline, and exhibits excellent transferability to black-box models. Our analysis further demonstrates that AGILE maintains substantial effectiveness against prominent defense mechanisms, highlighting the limitations of current safeguards and providing valuable insights for future defense development. Our code is available at https://github.com/yunsaijc/AGILE.
- Abstract(参考訳): ジェイルブレーキングは、これらのモデルをリチームしてセキュリティの欠陥を発見し、パッチをパッチする上で、不可欠な敵のテクニックである。
しかし、既存のjailbreakメソッドには大きな欠点がある。
トークンレベルのジェイルブレイク攻撃は、しばしば不整合または読めない入力を発生させ、転送可能性の低下を示す一方、プロンプトレベルの攻撃はスケーラビリティが欠如し、手作業や人間の創造性に大きく依存する。
本稿では,これらのアプローチの利点を組み合わせた,簡潔で効果的な2段階のフレームワークを提案する。
最初のステージでは、シナリオベースのコンテキスト生成を実行し、元の悪意のあるクエリを言い換えて、有害な意図を曖昧にする。
次に、第2段階は、モデルの隠された状態からの情報を利用して、きめ細かな編集を誘導し、悪意のある状態から良性のある状態へ、モデルの内部表現を効果的に操る。
大規模な実験により、この方法は最先端の攻撃成功率を達成し、最強のベースラインから最大37.74%のゲインを獲得し、ブラックボックスモデルへの優れた転送性を示した。
分析の結果,AGILEは防衛機構の卓越した機能に対して実質的な効果を保ち,現行の安全対策の限界を強調し,今後の防衛開発に有用な洞察を与えていることが明らかとなった。
私たちのコードはhttps://github.com/yunsaijc/AGILE.comから入手可能です。
関連論文リスト
- Jailbreak-Tuning: Models Efficiently Learn Jailbreak Susceptibility [4.051777802443125]
本稿では、オープンウェイトやクローズドファインチューニングAPIを経由しても、有用なモデルを生成することができることを示す。
OpenAI、Google、およびAnthropicモデルはCBRNの支援、サイバー攻撃の実行、その他の犯罪活動の要求に完全に準拠する。
論文 参考訳(メタデータ) (2025-07-15T18:10:29Z) - Attention Slipping: A Mechanistic Understanding of Jailbreak Attacks and Defenses in LLMs [61.916827858666906]
私たちは、脱獄攻撃中に起こる普遍的な現象を明らかにします。
Attention Slippingは、勾配ベースのトークン置換、プロンプトレベルのテンプレートリファインメント、コンテキスト内学習など、さまざまなジェイルブレイクメソッドに一貫性があることを示します。
本研究では,温度スケーリングによる注意スコア分布の鮮明化により,注意スライッピングと直接対向する新たな防御法である注意シャープニングを提案する。
論文 参考訳(メタデータ) (2025-07-06T12:19:04Z) - Exploring Jailbreak Attacks on LLMs through Intent Concealment and Diversion [1.0291559330120414]
大規模言語モデル(LLM)は目覚ましい進歩を遂げているが、そのセキュリティは依然として懸念されている。
主要な脅威の1つはジェイルブレイク攻撃であり、敵はモデル保護をバイパスして有害または好ましくないコンテンツを生成する。
Intent ConcealmentとdivErsionを用いてセキュリティ制約を効果的に回避する新しいブラックボックスジェイルブレイク手法ICEを提案する。
論文 参考訳(メタデータ) (2025-05-20T13:03:15Z) - xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [55.253208152184065]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。
我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。
安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文 参考訳(メタデータ) (2024-12-22T14:18:39Z) - The Great Contradiction Showdown: How Jailbreak and Stealth Wrestle in Vision-Language Models? [23.347349690954452]
VLM(Vision-Language Models)は、様々なタスクにおいて顕著なパフォーマンスを達成したが、Jailbreak攻撃には弱いままである。
これらの攻撃の有効性とステルスネスの基本的なトレードオフを理解するための情報理論の枠組みを提供する。
本研究では,非スティルシージェイルブレイク攻撃を効果的に検出し,モデルロバスト性を大幅に向上させるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-02T11:40:49Z) - Prefix Guidance: A Steering Wheel for Large Language Models to Defend Against Jailbreak Attacks [27.11523234556414]
我々は,プリフィックスガイダンス(PG)という,プラグアンドプレイで容易に配置可能なジェイルブレイク防御フレームワークを提案する。
PGは、モデルの出力の最初の数個のトークンを直接設定することで、有害なプロンプトを特定するようモデルに誘導する。
3つのモデルと5つの攻撃方法におけるPGの有効性を実証する。
論文 参考訳(メタデータ) (2024-08-15T14:51:32Z) - Weak-to-Strong Jailbreaking on Large Language Models [92.52448762164926]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - Jailbroken: How Does LLM Safety Training Fail? [92.8748773632051]
ChatGPTの初期リリースに対する"jailbreak"攻撃は、望ましくない振る舞いを引き起こす。
このような攻撃がなぜ成功し、どのように発生できるかを考察する。
障害モードを利用した新たな攻撃は、安全でない要求の収集において、すべてのプロンプトで成功します。
論文 参考訳(メタデータ) (2023-07-05T17:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。