論文の概要: Guiding not Forcing: Enhancing the Transferability of Jailbreaking Attacks on LLMs via Removing Superfluous Constraints
- arxiv url: http://arxiv.org/abs/2503.01865v1
- Date: Tue, 25 Feb 2025 07:47:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-09 03:20:28.697125
- Title: Guiding not Forcing: Enhancing the Transferability of Jailbreaking Attacks on LLMs via Removing Superfluous Constraints
- Title(参考訳): 強制の回避:過水性制約の除去によるLLMの脱獄攻撃の伝達性向上
- Authors: Junxiao Yang, Zhexin Zhang, Shiyao Cui, Hongning Wang, Minlie Huang,
- Abstract要約: 本研究の目的は,勾配に基づくジェイルブレイク手法の伝達可能性を理解し,向上することである。
本稿では,トランスファービリティを解明し,過剰な制約を識別するための新しい概念的枠組みを提案する。
提案手法は, 安全レベルを18.4%から50.3%に変化させたターゲットモデル全体のトランスファー攻撃成功率(T-ASR)を増加させる。
- 参考スコア(独自算出の注目度): 81.14852921721793
- License:
- Abstract: Jailbreaking attacks can effectively induce unsafe behaviors in Large Language Models (LLMs); however, the transferability of these attacks across different models remains limited. This study aims to understand and enhance the transferability of gradient-based jailbreaking methods, which are among the standard approaches for attacking white-box models. Through a detailed analysis of the optimization process, we introduce a novel conceptual framework to elucidate transferability and identify superfluous constraints-specifically, the response pattern constraint and the token tail constraint-as significant barriers to improved transferability. Removing these unnecessary constraints substantially enhances the transferability and controllability of gradient-based attacks. Evaluated on Llama-3-8B-Instruct as the source model, our method increases the overall Transfer Attack Success Rate (T-ASR) across a set of target models with varying safety levels from 18.4% to 50.3%, while also improving the stability and controllability of jailbreak behaviors on both source and target models.
- Abstract(参考訳): 脱獄攻撃は、大規模言語モデル(LLM)における安全でない振る舞いを効果的に引き起こすことができるが、これらの攻撃の異なるモデル間での転送可能性はまだ限られている。
本研究の目的は、ホワイトボックスモデルに対する標準的なアプローチの一つである勾配に基づくジェイルブレイク手法の伝達可能性を理解し、向上することである。
最適化プロセスの詳細な解析を通じて、トランスファービリティを解明し、超流動的な制約、特に応答パターン制約とトークンテール制約を重要な障壁として識別する新しい概念的枠組みを導入し、トランスファービリティを向上させる。
これらの不要な制約を取り除くことで、勾配ベースの攻撃の転送性と制御性が大幅に向上する。
Llama-3-8B-Instructをソースモデルとして評価し、安全レベルを18.4%から50.3%に変化させたターゲットモデル全体の転送成功率(T-ASR)を18.4%から50.3%に引き上げるとともに、ソースモデルとターゲットモデルの両方におけるジェイルブレイク動作の安定性と制御性を向上させる。
関連論文リスト
- Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - Boosting Jailbreak Transferability for Large Language Models [10.884050438726215]
不整合出力を削減するために,シナリオ誘導テンプレート,最適化された接尾辞選択,および再接尾辞攻撃機構の統合を提案する。
提案手法は,様々なベンチマーク実験において優れた性能を示し,攻撃実行と転送可能性の両方において100%近い成功率を達成した。
論文 参考訳(メタデータ) (2024-10-21T05:11:19Z) - Harnessing Task Overload for Scalable Jailbreak Attacks on Large Language Models [8.024771725860127]
大きな言語モデル(LLM)は、安全メカニズムをバイパスするジェイルブレイク攻撃に対して脆弱なままである。
我々は, LLMの安全性ポリシーの活性化を前提として, 計算資源を占有する新しい拡張性のあるジェイルブレイク攻撃を導入する。
論文 参考訳(メタデータ) (2024-10-05T15:10:01Z) - Jailbreak Antidote: Runtime Safety-Utility Balance via Sparse Representation Adjustment in Large Language Models [8.024771725860127]
ジェイルブレイク攻撃は、大きな言語モデルを操作して有害なコンテンツを生成する。
Jailbreak Antidoteは、モデルの内部状態のスパースサブセットを操作することで、安全優先のリアルタイム調整を可能にする。
解析の結果,LLMの安全性関連情報はわずかに分散していることがわかった。
論文 参考訳(メタデータ) (2024-10-03T08:34:17Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Advancing Generalized Transfer Attack with Initialization Derived Bilevel Optimization and Dynamic Sequence Truncation [49.480978190805125]
転送攻撃はブラックボックスアプリケーションに大きな関心を惹きつける。
既存の作業は、本質的に単一のレベルの目的 w.r.t. シュロゲートモデルを直接最適化する。
本稿では,上位レベル(UL)と下位レベル(LL)のサロゲート攻撃とのネスト関係を明示的に再構築する2レベル最適化手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T07:45:27Z) - DiveR-CT: Diversity-enhanced Red Teaming Large Language Model Assistants with Relaxing Constraints [68.82294911302579]
DiveR-CTを導入し、目的と意味の報酬に対する従来の制約を緩和し、多様性を高める政策により大きな自由を与える。
実験では,1)様々な攻撃成功率の多様な多様性指標において優れたデータを生成すること,2)収集したデータに基づく安全性チューニングによる青チームモデルのレジリエンスの向上,3)信頼性と制御可能な攻撃成功率に対する目標重みの動的制御,3)報酬過大化に対する感受性の低下など,ベースラインよりも優れたDiveR-CTの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2024-05-29T12:12:09Z) - Fine-Tuning, Quantization, and LLMs: Navigating Unintended Outcomes [0.0]
大規模言語モデル(LLM)は、チャットボットやオートタスク補完エージェントなど、さまざまな領域で広く採用されている。
これらのモデルは、ジェイルブレイク、プロンプトインジェクション、プライバシリーク攻撃などの安全性上の脆弱性の影響を受けやすい。
本研究では,これらの変更がLLMの安全性に与える影響について検討する。
論文 参考訳(メタデータ) (2024-04-05T20:31:45Z) - Enhancing the Transferability of Adversarial Attacks through Variance
Tuning [6.5328074334512]
反復勾配に基づく攻撃手法のクラスを強化するための分散チューニングと呼ばれる新しい方法を提案する。
標準のImageNetデータセットを用いた実験結果から,勾配に基づく敵攻撃の転送性を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2021-03-29T12:41:55Z) - Boosting Adversarial Transferability through Enhanced Momentum [50.248076722464184]
深層学習モデルは、人間の知覚できない摂動を良心的なイメージに加えることで、敵の例に弱い。
さまざまな運動量反復勾配に基づく方法が逆転性を改善するのに有効であることが示されている。
本稿では,逆伝達性をさらに高めるために,運動量反復勾配に基づく手法を提案する。
論文 参考訳(メタデータ) (2021-03-19T03:10:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。