論文の概要: Enhancing Jailbreak Attacks on LLMs via Persona Prompts
- arxiv url: http://arxiv.org/abs/2507.22171v1
- Date: Mon, 28 Jul 2025 12:03:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:17.82443
- Title: Enhancing Jailbreak Attacks on LLMs via Persona Prompts
- Title(参考訳): パーソナ・プロンプトによるLSMの脱獄攻撃の強化
- Authors: Zheng Zhang, Peilin Zhao, Deheng Ye, Hao Wang,
- Abstract要約: Jailbreak攻撃は、有害なコンテンツを生成するよう誘導することで、大きな言語モデル(LLM)を活用することを目的としている。
以前のジェイルブレイクアプローチは、主に有害な意図を直接操作することに焦点を当てており、ペルソナのプロンプトの影響に限られた注意を払っている。
LLMの安全性機構をバイパスするペルソナを自動生成する遺伝的アルゴリズムに基づく手法を提案する。
- 参考スコア(独自算出の注目度): 39.73624426612256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Jailbreak attacks aim to exploit large language models (LLMs) by inducing them to generate harmful content, thereby revealing their vulnerabilities. Understanding and addressing these attacks is crucial for advancing the field of LLM safety. Previous jailbreak approaches have mainly focused on direct manipulations of harmful intent, with limited attention to the impact of persona prompts. In this study, we systematically explore the efficacy of persona prompts in compromising LLM defenses. We propose a genetic algorithm-based method that automatically crafts persona prompts to bypass LLM's safety mechanisms. Our experiments reveal that: (1) our evolved persona prompts reduce refusal rates by 50-70% across multiple LLMs, and (2) these prompts demonstrate synergistic effects when combined with existing attack methods, increasing success rates by 10-20%. Our code and data are available at https://github.com/CjangCjengh/Generic_Persona.
- Abstract(参考訳): Jailbreak攻撃は、有害なコンテンツを生成するよう誘導することで、大きな言語モデル(LLM)を活用することを目的としている。
これらの攻撃を理解し、対処することは、LLMの安全性の分野を前進させるのに不可欠である。
以前のジェイルブレイクアプローチは、主に有害な意図を直接操作することに焦点を当てており、ペルソナのプロンプトの影響に限られた注意を払っている。
本研究では,LLM防衛におけるペルソナプロンプトの有効性を体系的に検討した。
LLMの安全性機構をバイパスするペルソナを自動生成する遺伝的アルゴリズムに基づく手法を提案する。
実験の結果, 1) 進化したペルソナは複数のLSMにおいて拒絶率を50~70%削減し, 2) 既存の攻撃手法と組み合わせることで相乗効果を示し, 成功率を10~20%向上させることがわかった。
私たちのコードとデータはhttps://github.com/CjangCjengh/Generic_Persona.comで公開されています。
関連論文リスト
- Dagger Behind Smile: Fool LLMs with a Happy Ending Story [3.474162324046381]
Happy Ending Attack (HEA)は、主に$textithappy end$を通じて形成された肯定的なプロンプトを含むシナリオテンプレートで悪意のあるリクエストをラップする。
我々のHEAは、GPT-4o、Llama3-70b、Gemini-proを含む最先端のLLMのジェイルブレイクに成功し、平均して88.79%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2025-01-19T13:39:51Z) - LLMs can be Dangerous Reasoners: Analyzing-based Jailbreak Attack on Large Language Models [21.02295266675853]
我々は,新たなブラックボックスジェイルブレイク攻撃手法,Analyzing-based Jailbreak (ABJ)を提案する。
ABJは2つの独立した攻撃経路から構成され、モデルのマルチモーダル推論機能を利用して安全機構をバイパスする。
我々の研究は、新しいタイプの安全リスクを明らかにし、モデルの推論プロセスにおける暗黙の脆弱性を軽減する緊急の必要性を強調します。
論文 参考訳(メタデータ) (2024-07-23T06:14:41Z) - Towards Understanding Jailbreak Attacks in LLMs: A Representation Space Analysis [47.81417828399084]
大規模言語モデル(LLM)は、有害な内容を出力するためにLLMを誤解させるジェイルブレーキング(jailbreaking)と呼ばれるタイプの攻撃を受けやすい。
本稿では, LLMの表現空間における有害かつ無害なプロンプトの挙動を考察し, ジェイルブレイク攻撃の本質的特性について検討する。
論文 参考訳(メタデータ) (2024-06-16T03:38:48Z) - Mind the Inconspicuous: Revealing the Hidden Weakness in Aligned LLMs' Refusal Boundaries [22.24239212756129]
複数のシーケンス(eos)トークンを単に追加するだけで、コンテキストセグメンテーションと呼ばれる現象が発生します。
本稿では, eos トークンを付加することにより, BOOST ジェイルブレイク攻撃の簡単な方法を提案する。
論文 参考訳(メタデータ) (2024-05-31T07:41:03Z) - Leveraging the Context through Multi-Round Interactions for Jailbreaking Attacks [55.603893267803265]
大規模言語モデル(LLM)は、脱獄攻撃の影響を受けやすい。
脱獄攻撃は、攻撃クエリを微調整することで有害な情報を抽出することを目的としている。
我々は、コンテキストインタラクションアタックと呼ばれる新しい攻撃形式に焦点を当てる。
論文 参考訳(メタデータ) (2024-02-14T13:45:19Z) - How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to
Challenge AI Safety by Humanizing LLMs [66.05593434288625]
本稿では, 大規模言語モデル (LLM) を人間のようなコミュニケーション手段として, ジェイルブレイクの新たな視点を紹介する。
本研究では,数十年にわたる社会科学研究から派生した説得的分類法を適用し,説得的敵対的プロンプト(PAP)をジェイルブレイク LLM に適用する。
PAPは、Llama 2-7b Chat、GPT-3.5、GPT-4の攻撃成功率を10ドルで一貫して92%以上達成している。
防衛面では,PAPに対する様々なメカニズムを探索し,既存の防衛に重大なギャップがあることを見出した。
論文 参考訳(メタデータ) (2024-01-12T16:13:24Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。