論文の概要: One Model Transfer to All: On Robust Jailbreak Prompts Generation against LLMs
- arxiv url: http://arxiv.org/abs/2505.17598v1
- Date: Fri, 23 May 2025 08:02:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.913644
- Title: One Model Transfer to All: On Robust Jailbreak Prompts Generation against LLMs
- Title(参考訳): 全モデル移行:LLMに対するロバスト・ジェイルブレイク・プロンプト生成について
- Authors: Linbao Li, Yannan Liu, Daojing He, Yu Li,
- Abstract要約: ArrAttackは、防衛された大規模言語モデル(LLM)をターゲットにした攻撃方法である。
ArrAttackは、様々な防御措置をバイパスできる堅牢なジェイルブレイクプロンプトを自動的に生成する。
私たちの仕事は、ジェイルブレイク攻撃と防衛のギャップを埋め、堅牢なジェイルブレイクプロンプトを生成するための新たな視点を提供します。
- 参考スコア(独自算出の注目度): 13.54228868302755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety alignment in large language models (LLMs) is increasingly compromised by jailbreak attacks, which can manipulate these models to generate harmful or unintended content. Investigating these attacks is crucial for uncovering model vulnerabilities. However, many existing jailbreak strategies fail to keep pace with the rapid development of defense mechanisms, such as defensive suffixes, rendering them ineffective against defended models. To tackle this issue, we introduce a novel attack method called ArrAttack, specifically designed to target defended LLMs. ArrAttack automatically generates robust jailbreak prompts capable of bypassing various defense measures. This capability is supported by a universal robustness judgment model that, once trained, can perform robustness evaluation for any target model with a wide variety of defenses. By leveraging this model, we can rapidly develop a robust jailbreak prompt generator that efficiently converts malicious input prompts into effective attacks. Extensive evaluations reveal that ArrAttack significantly outperforms existing attack strategies, demonstrating strong transferability across both white-box and black-box models, including GPT-4 and Claude-3. Our work bridges the gap between jailbreak attacks and defenses, providing a fresh perspective on generating robust jailbreak prompts. We make the codebase available at https://github.com/LLBao/ArrAttack.
- Abstract(参考訳): 大きな言語モデル(LLM)の安全性の整合性は、これらのモデルを操作して有害または意図しないコンテンツを生成するジェイルブレイク攻撃によってますます損なわれている。
これらの攻撃を調べることは、モデルの脆弱性を明らかにするのに不可欠である。
しかし、多くの既存のジェイルブレイク戦略は防衛サフィックスのような防衛機構の急速な発展に遅れず、防御されたモデルに対して効果がない。
この問題に対処するために,防衛LDMをターゲットとしたArrAttackと呼ばれる新たな攻撃手法を提案する。
ArrAttackは、様々な防御措置をバイパスできる堅牢なジェイルブレイクプロンプトを自動的に生成する。
この能力は、一度訓練された場合、様々な防御を施した任意の目標モデルに対してロバストネス評価を行うことができる普遍的ロバストネス判定モデルによって支持される。
このモデルを利用することで、悪意のある入力プロンプトを効果的な攻撃に変換する堅牢なジェイルブレイクプロンプトジェネレータを迅速に開発できる。
大規模な評価では、ArrAttackは既存の攻撃戦略よりも優れており、GPT-4やClaude-3など、ホワイトボックスモデルとブラックボックスモデルの両方で強力な転送可能性を示している。
私たちの仕事は、ジェイルブレイク攻撃と防衛のギャップを埋め、堅牢なジェイルブレイクプロンプトを生成するための新たな視点を提供します。
コードベースはhttps://github.com/LLBao/ArrAttack.orgで公開しています。
関連論文リスト
- JailPO: A Novel Black-box Jailbreak Framework via Preference Optimization against Aligned LLMs [11.924542310342282]
我々は、LLM(Large Language Models)アライメントを調べるための新しいブラックボックスジェイルブレイクフレームワークであるJailPOを紹介する。
スケーラビリティと普遍性のために、JailPOは攻撃モデルを慎重に訓練し、隠蔽されたジェイルブレイクプロンプトを自動的に生成する。
また、優先最適化に基づく攻撃手法を導入し、ジェイルブレイクの有効性を高める。
論文 参考訳(メタデータ) (2024-12-20T07:29:10Z) - FlexLLM: Exploring LLM Customization for Moving Target Defense on Black-Box LLMs Against Jailbreak Attacks [7.31505609352525]
大規模言語モデル(LLM)の防衛は、有害なコンテンツを生成するためにこれらのシステムを利用する多数の攻撃者に対抗するために不可欠である。
モデルロバスト性を高めるために、デコードハイパーパラメータを変更する移動目標防御手法を提案する。
以上の結果から,テストした3つのモデルのうち,我々の防衛は脱獄攻撃に対して最も効果的であることが示された。
論文 参考訳(メタデータ) (2024-12-10T17:02:28Z) - Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment [97.38766396447369]
訓練時安全アライメントにもかかわらず、Multimodal Large Language Models (MLLM) はジェイルブレイク攻撃に対して脆弱である。
我々は,ジェイルブレイク攻撃に対する防御のために,制御復号化による安全な報酬モデルを活用する推論時防御フレームワークImmuneを提案する。
論文 参考訳(メタデータ) (2024-11-27T19:00:10Z) - Prefix Guidance: A Steering Wheel for Large Language Models to Defend Against Jailbreak Attacks [27.11523234556414]
我々は,プリフィックスガイダンス(PG)という,プラグアンドプレイで容易に配置可能なジェイルブレイク防御フレームワークを提案する。
PGは、モデルの出力の最初の数個のトークンを直接設定することで、有害なプロンプトを特定するようモデルに誘導する。
3つのモデルと5つの攻撃方法におけるPGの有効性を実証する。
論文 参考訳(メタデータ) (2024-08-15T14:51:32Z) - SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner [21.414701448926614]
本稿では,自衛隊(SelfDefend)と呼ばれる総称LDMジェイルブレイク防御フレームワークを紹介する。
主要なjailbreak攻撃に対して,メインストリームのGPT-3.5/4モデルを使用することを実証的に検証した。
防衛の堅牢性をさらに向上し、コストを最小化するために、我々は専用のオープンソース防衛モデルをチューニングするためにデータ蒸留アプローチを採用している。
論文 参考訳(メタデータ) (2024-06-08T15:45:31Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文 参考訳(メタデータ) (2023-10-23T17:46:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。