論文の概要: Hide Your Malicious Goal Into Benign Narratives: Jailbreak Large Language Models through Carrier Articles
- arxiv url: http://arxiv.org/abs/2408.11182v2
- Date: Fri, 07 Feb 2025 01:18:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:53:59.259727
- Title: Hide Your Malicious Goal Into Benign Narratives: Jailbreak Large Language Models through Carrier Articles
- Title(参考訳): 悪意ある目標を悪名高い物語に隠す - キャリア記事を通じて大規模な言語モデルをジェイルブレイクする
- Authors: Zhilong Wang, Haizhou Wang, Nanqing Luo, Lan Zhang, Xiaoyan Sun, Yebo Cao, Peng Liu,
- Abstract要約: LLM(Large Language Model)ジェイルブレイク(LLM)は、LLMの保護を回避し、安全な使用ガイドラインに反するコンテンツを生成する攻撃の一種である。
本稿では,禁止クエリをキャリア記事に戦略的に注入することで,ペイロードプロンプトを製作するブラックボックス・ジェイルブレイク手法を提案する。
私たちはJailbreakBenchを使って、100の異なるJailbreak目標に対して4つのターゲットモデルをテストするアプローチを評価しました。
- 参考スコア(独自算出の注目度): 10.109063166962079
- License:
- Abstract: Large Language Model (LLM) jailbreak refers to a type of attack aimed to bypass the safeguard of an LLM to generate contents that are inconsistent with the safe usage guidelines. Based on the insights from the self-attention computation process, this paper proposes a novel blackbox jailbreak approach, which involves crafting the payload prompt by strategically injecting the prohibited query into a carrier article. The carrier article maintains the semantic proximity to the prohibited query, which is automatically produced by combining a hypernymy article and a context, both of which are generated from the prohibited query. The intuition behind the usage of carrier article is to activate the neurons in the model related to the semantics of the prohibited query while suppressing the neurons that will trigger the objectionable text. Carrier article itself is benign, and we leveraged prompt injection techniques to produce the payload prompt. We evaluate our approach using JailbreakBench, testing against four target models across 100 distinct jailbreak objectives. The experimental results demonstrate our method's superior effectiveness, achieving an average success rate of 63% across all target models, significantly outperforming existing blackbox jailbreak methods.
- Abstract(参考訳): LLM(Large Language Model)ジェイルブレイク(LLM)は、LLMの保護を回避し、安全な使用ガイドラインに反するコンテンツを生成する攻撃の一種である。
本稿では,自己注意型計算プロセスの知見に基づいて,禁止クエリをキャリア記事に戦略的に注入することでペイロードのプロンプトを製作する,新たなブラックボックス・ジェイルブレイク手法を提案する。
キャリア記事は、禁止されたクエリから生成されるハイパーネミー記事とコンテキストを組み合わせることで自動的に生成される、禁止されたクエリに対するセマンティックな近接性を維持する。
キャリア記事の使用の背後にある直感は、禁止されたクエリのセマンティクスに関連するモデルのニューロンを活性化し、反対のテキストをトリガーするニューロンを抑えることである。
キャリヤ記事自体が良心的であり、ペイロードプロンプトを生成するためにプロンプトインジェクション技術を活用しました。
私たちはJailbreakBenchを使って、100の異なるJailbreak目標に対して4つのターゲットモデルをテストするアプローチを評価しました。
実験により,本手法の有効性を実証し,すべての対象モデルに対して平均63%の成功率を達成し,既存のブラックボックスジェイルブレイク法を著しく上回る結果を得た。
関連論文リスト
- CCJA: Context-Coherent Jailbreak Attack for Aligned Large Language Models [18.06388944779541]
ジェイルブレイク(jailbreaking)とは、意図しない振る舞いをトリガーする大きな言語モデルである。
本稿では,ジェイルブレイク攻撃の成功率とセマンティック・コヒーレンスとのバランスをとる新しい手法を提案する。
本手法は攻撃効率において最先端のベースラインよりも優れている。
論文 参考訳(メタデータ) (2025-02-17T02:49:26Z) - xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - DiffusionAttacker: Diffusion-Driven Prompt Manipulation for LLM Jailbreak [51.8218217407928]
大規模言語モデル (LLM) は、慎重に入力を行うと有害なコンテンツを生成する可能性がある。
本稿では,拡散モデルにインスパイアされたジェイルブレイク書き換えのためのエンドツーエンド生成手法であるDiffusionAttackerを紹介する。
論文 参考訳(メタデータ) (2024-12-23T12:44:54Z) - Stealthy Jailbreak Attacks on Large Language Models via Benign Data Mirroring [47.40698758003993]
そこで本研究では,ターゲットブラックボックスモデルのミラーモデルを良質なデータ蒸留により局所的に訓練することにより,悪意あるプロンプト構築を誘導するトランスファー攻撃法を提案する。
提案手法は最大攻撃成功率92%, バランス値80%を達成し, GPT-3.5 Turboに対して平均1.5のジェイルブレイククエリが検出された。
論文 参考訳(メタデータ) (2024-10-28T14:48:05Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - BaThe: Defense against the Jailbreak Attack in Multimodal Large Language Models by Treating Harmful Instruction as Backdoor Trigger [67.75420257197186]
本研究では,単純なジェイルブレイク防御機構である$textbfBaTheを提案する。
ジェイルブレイクバックドア攻撃は、手作りの弦と組み合わされた有害な命令をトリガーとして使用し、バックドアモデルが禁止された応答を生成する。
有害な命令がトリガーとして機能し、代わりにリジェクション応答をトリガー応答として設定すれば、バックドアモデルがジェイルブレイク攻撃に対して防御できると仮定する。
論文 参考訳(メタデータ) (2024-08-17T04:43:26Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。