論文の概要: The Dual Power of Interpretable Token Embeddings: Jailbreaking Attacks and Defenses for Diffusion Model Unlearning
- arxiv url: http://arxiv.org/abs/2504.21307v1
- Date: Wed, 30 Apr 2025 04:33:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 22:29:32.481038
- Title: The Dual Power of Interpretable Token Embeddings: Jailbreaking Attacks and Defenses for Diffusion Model Unlearning
- Title(参考訳): 解釈可能なToken埋め込みのデュアルパワー:拡散モデル学習におけるジェイルブレイク攻撃と防御
- Authors: Siyi Chen, Yimeng Zhang, Sijia Liu, Qing Qu,
- Abstract要約: 拡散モデルは、特定のテキスト命令によって、有害なコンテンツを生成することができる。
この問題を未学習の有害な概念によって軽減するために、微調整のアプローチが開発されている。
- 参考スコア(独自算出の注目度): 17.502599682445382
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the remarkable generalization capabilities of diffusion models, recent studies have shown that these models can memorize and generate harmful content when prompted with specific text instructions. Although fine-tuning approaches have been developed to mitigate this issue by unlearning harmful concepts, these methods can be easily circumvented through jailbreaking attacks. This indicates that the harmful concept has not been fully erased from the model. However, existing attack methods, while effective, lack interpretability regarding why unlearned models still retain the concept, thereby hindering the development of defense strategies. In this work, we address these limitations by proposing an attack method that learns an orthogonal set of interpretable attack token embeddings. The attack token embeddings can be decomposed into human-interpretable textual elements, revealing that unlearned models still retain the target concept through implicit textual components. Furthermore, these attack token embeddings are robust and transferable across text prompts, initial noises, and unlearned models. Finally, leveraging this diverse set of embeddings, we design a defense method applicable to both our proposed attack and existing attack methods. Experimental results demonstrate the effectiveness of both our attack and defense strategies.
- Abstract(参考訳): 拡散モデルの顕著な一般化能力にもかかわらず、最近の研究では、これらのモデルが特定のテキスト命令で誘導されたときに有害な内容を記憶し、生成できることが示されている。
有害な概念を学習しないことによってこの問題を軽減するための微調整手法が開発されているが、これらの手法は脱獄攻撃によって容易に回避できる。
これは、有害な概念がモデルから完全に削除されていないことを示している。
しかし、既存の攻撃方法は効果はあるものの、なぜ未学習のモデルがコンセプトを維持しているのかという解釈性に欠けており、それによって防衛戦略の開発を妨げている。
本研究では,これらの制約に対処するために,直交した解釈可能な攻撃トークンの埋め込みを学習するアタック手法を提案する。
攻撃トークンの埋め込みは、人間の解釈可能なテキスト要素に分解することができる。
さらに、これらの攻撃トークンの埋め込みは堅牢で、テキストプロンプト、初期ノイズ、未学習モデル間で転送可能である。
最後に,この多種多様な埋め込みを活用して,提案した攻撃手法と既存攻撃手法の両方に適用可能な防御手法を設計する。
実験の結果,攻撃戦略と防御戦略の両方の有効性が示された。
関連論文リスト
- Activation-Guided Local Editing for Jailbreaking Attacks [33.13949817155855]
トークンレベルのジェイルブレイク攻撃は、しばしば不整合または読めない入力を生み出す。
即時攻撃はスケーラビリティに欠けており、手作業や人間の創造性に大きく依存している。
本稿では,これらのアプローチの利点を組み合わせた,簡潔で効果的な2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-01T11:52:24Z) - TokenBreak: Bypassing Text Classification Models Through Token Manipulation [0.0]
テキスト分類モデルは、LLM(Large Language Models)に対する即発的なインジェクション攻撃のような脅威を防ぐために実装することができる。
TokenBreakを紹介します。トークン化戦略を活用することで、これらの保護モデルを回避できる新たな攻撃です。
重要なことは、エンドターゲット(LLMまたはEメール受信者)は、まだ操作されたテキストを理解して応答することができ、そのため、保護モデルが配置された非常に攻撃に弱いことである。
論文 参考訳(メタデータ) (2025-06-09T17:11:28Z) - One Model Transfer to All: On Robust Jailbreak Prompts Generation against LLMs [13.54228868302755]
ArrAttackは、防衛された大規模言語モデル(LLM)をターゲットにした攻撃方法である。
ArrAttackは、様々な防御措置をバイパスできる堅牢なジェイルブレイクプロンプトを自動的に生成する。
私たちの仕事は、ジェイルブレイク攻撃と防衛のギャップを埋め、堅牢なジェイルブレイクプロンプトを生成するための新たな視点を提供します。
論文 参考訳(メタデータ) (2025-05-23T08:02:38Z) - ShieldLearner: A New Paradigm for Jailbreak Attack Defense in LLMs [4.534938642552179]
ShieldLearnerは、防衛における人間の学習を模倣する新しいパラダイムである。
試行錯誤によって、アタックシグネチャを自動でパターンアトラスに蒸留する。
Adaptive Adversarial Augmentationは、防御されたプロンプトの逆のバリエーションを生成する。
論文 参考訳(メタデータ) (2025-02-16T18:47:41Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Jailbreaking? One Step Is Enough! [6.142918017301964]
大規模言語モデル(LLM)は様々なタスクで優れるが、敵が有害な出力を生成するプロンプトを操作するジェイルブレイク攻撃に弱いままである。
本稿では,攻撃意図を「防御」意図と偽装するリバース・エンベッドド・ディフェンス・アタック(REDA)機構を提案する。
モデルの「防御的」意図における信頼性とガイダンスを高めるため、少数の攻撃例を含む文脈内学習(ICL)を採用する。
論文 参考訳(メタデータ) (2024-12-17T07:33:41Z) - Defense Against Prompt Injection Attack by Leveraging Attack Techniques [66.65466992544728]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクで顕著なパフォーマンスを実現している。
LLMが進化を続けるにつれて、新しい脆弱性、特にインジェクション攻撃が発生する。
近年の攻撃手法は, LLMの命令追従能力とデータ内容に注入された命令を識別する能力を活用している。
論文 参考訳(メタデータ) (2024-11-01T09:14:21Z) - From Theft to Bomb-Making: The Ripple Effect of Unlearning in Defending Against Jailbreak Attacks [85.84979847888157]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に弱いことが知られている。
LLMは、学習期間中に明示的に導入されなかった有害な知識を暗黙的に引き起こすことができる。
我々は、この現象を実証的に検証し、未学習の手法でアタック成功率を下げることを可能にする。
論文 参考訳(メタデータ) (2024-07-03T07:14:05Z) - Revealing Vulnerabilities of Neural Networks in Parameter Learning and Defense Against Explanation-Aware Backdoors [2.1165011830664673]
ブラディング攻撃は、機械学習アルゴリズムの予測と説明を大きく変える可能性がある。
我々は統計的解析を利用して、目隠し攻撃後のCNN内のCNN重みの変化を明らかにする。
本研究では,評価段階における攻撃の有効性を限定する手法を提案する。
論文 参考訳(メタデータ) (2024-03-25T09:36:10Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文 参考訳(メタデータ) (2023-10-23T17:46:07Z) - Isolation and Induction: Training Robust Deep Neural Networks against
Model Stealing Attacks [51.51023951695014]
既存のモデル盗難防衛は、被害者の後部確率に偽りの摂動を加え、攻撃者を誤解させる。
本稿では,モデルステルス防衛のための新規かつ効果的なトレーニングフレームワークである分離誘導(InI)を提案する。
モデルの精度を損なうモデル予測に摂動を加えるのとは対照的に、我々はモデルを訓練して、盗むクエリに対して非形式的なアウトプットを生成する。
論文 参考訳(メタデータ) (2023-08-02T05:54:01Z) - I Know What You Trained Last Summer: A Survey on Stealing Machine
Learning Models and Defences [0.1031296820074812]
本研究では,モデル盗難攻撃について検討し,その性能を評価し,異なる環境で対応する防御技術を探究する。
攻撃・防衛アプローチのための分類法を提案し,目標と利用可能な資源に基づいて適切な攻撃・防衛を選択する方法に関するガイドラインを提供する。
論文 参考訳(メタデータ) (2022-06-16T21:16:41Z) - Target Model Agnostic Adversarial Attacks with Query Budgets on Language
Understanding Models [14.738950386902518]
攻撃対象モデルに対して高い攻撃伝達性を有する目標モデル逆攻撃法を提案する。
実験により,本手法は,限られたクエリ予算の制約の下で,高度に伝達可能な文を生成することを示す。
論文 参考訳(メタデータ) (2021-06-13T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。