論文の概要: Iterative Prompting with Persuasion Skills in Jailbreaking Large Language Models
- arxiv url: http://arxiv.org/abs/2503.20320v1
- Date: Wed, 26 Mar 2025 08:40:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:21:50.051464
- Title: Iterative Prompting with Persuasion Skills in Jailbreaking Large Language Models
- Title(参考訳): 大規模言語モデルのジェイルブレークにおける説得力のある反復的プロンプト
- Authors: Shih-Wen Ke, Guan-Yu Lai, Guo-Lin Fang, Hsi-Yuan Kao,
- Abstract要約: 本研究では,大規模言語モデル (LLM) を反復的プロンプト手法で活用する。
GPT-3.5, GPT-4, LLaMa2, Vicuna, ChatGLMなどのLCMの応答パターンを解析した。
説得戦略は、悪意のある意図との一貫性を維持しながら、迅速な効果を高める。
- 参考スコア(独自算出の注目度): 2.1511703382556657
- License:
- Abstract: Large language models (LLMs) are designed to align with human values in their responses. This study exploits LLMs with an iterative prompting technique where each prompt is systematically modified and refined across multiple iterations to enhance its effectiveness in jailbreaking attacks progressively. This technique involves analyzing the response patterns of LLMs, including GPT-3.5, GPT-4, LLaMa2, Vicuna, and ChatGLM, allowing us to adjust and optimize prompts to evade the LLMs' ethical and security constraints. Persuasion strategies enhance prompt effectiveness while maintaining consistency with malicious intent. Our results show that the attack success rates (ASR) increase as the attacking prompts become more refined with the highest ASR of 90% for GPT4 and ChatGLM and the lowest ASR of 68% for LLaMa2. Our technique outperforms baseline techniques (PAIR and PAP) in ASR and shows comparable performance with GCG and ArtPrompt.
- Abstract(参考訳): 大規模言語モデル(LLM)は、応答における人間の値と整合するように設計されている。
本研究は,複数の反復で各プロンプトを系統的に修正・洗練し,段階的にジェイルブレイク攻撃の有効性を高める反復的プロンプト技術を用いてLCMを利用する。
本手法は, GPT-3.5, GPT-4, LLaMa2, Vicuna, ChatGLMなどのLCMの応答パターンを解析することにより, LLMの倫理的・セキュリティ的制約を回避するためのプロンプトの調整と最適化を可能にする。
説得戦略は、悪意のある意図との一貫性を維持しながら、迅速な効果を高める。
GPT4およびChatGLMは90%,LLaMa2は68%であり,アタック成功率(ASR)は上昇傾向にある。
本手法は,ASRのベースライン技術(PAIR,PAP)より優れ,GCG,ArtPromptと同等の性能を示す。
関連論文リスト
- Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。
この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。
本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-10T12:42:33Z) - LLMStinger: Jailbreaking LLMs using RL fine-tuned LLMs [13.36946005380889]
LLMStingerはLarge Language Models(LLMs)を利用して、jailbreak攻撃の逆サフィックスを自動的に生成する新しいアプローチである。
LLaMA2-7B-chatでの攻撃成功率(ASR)は57.2%向上し,Claude 2では+50.3%向上した。
論文 参考訳(メタデータ) (2024-11-13T18:44:30Z) - Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - AttnGCG: Enhancing Jailbreaking Attacks on LLMs with Attention Manipulation [42.797865918373326]
本稿では,トランスフォーマーを用いた大規模言語モデル(LLM)のジェイルブレイク攻撃に対する脆弱性について検討する。
本稿では,ジェイルブレイクを容易にするために,モデルの注意点を操作する拡張手法を提案する。
我々の戦略はまた、目に見えない有害な目標とブラックボックスのLSMの両方に対して堅牢な攻撃伝達性を示す。
論文 参考訳(メタデータ) (2024-10-11T17:55:09Z) - Improved Generation of Adversarial Examples Against Safety-aligned LLMs [72.38072942860309]
勾配に基づく手法を用いて生成した敵対的プロンプトは、安全対応のLDMに対して自動ジェイルブレイク攻撃を行う際、優れた性能を示す。
本稿では,この問題に対する新たな視点を探求し,トランスファーベースの攻撃にインスパイアされたイノベーションを活用することで緩和できることを示唆する。
この組み合わせによって生成されたクエリ固有逆接接尾辞の87%がLlama-2-7B-Chatを誘導し、AdvBench上のターゲット文字列と正確に一致する出力を生成することを示した。
論文 参考訳(メタデータ) (2024-05-28T06:10:12Z) - Prompt Leakage effect and defense strategies for multi-turn LLM interactions [95.33778028192593]
システムプロンプトの漏洩は知的財産を侵害し、攻撃者に対する敵の偵察として機能する可能性がある。
我々は, LLM sycophancy 効果を利用して, 平均攻撃成功率 (ASR) を17.7%から86.2%に高めるユニークな脅威モデルを構築した。
7つのブラックボックス防衛戦略の緩和効果と、漏洩防止のためのオープンソースモデルを微調整する。
論文 参考訳(メタデータ) (2024-04-24T23:39:58Z) - PAL: Proxy-Guided Black-Box Attack on Large Language Models [55.57987172146731]
大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を示している。
PAL(Proxy-Guided Attack on LLMs)は, ブラックボックスクエリのみの設定で, LLMに対する最初の最適化ベースの攻撃である。
GPT-3.5-Turboの攻撃成功率は84%,Llama-2-7Bの攻撃成功率は48%であった。
論文 参考訳(メタデータ) (2024-02-15T02:54:49Z) - Prompt Perturbation in Retrieval-Augmented Generation based Large Language Models [9.688626139309013]
Retrieval-Augmented Generationは、大規模言語モデルからテキスト生成の信頼性を向上させる手段として考えられている。
本研究では,プロンプトに短い接頭辞を挿入しても,実際の正解から遠く離れたアウトプットを生成することを発見した。
グラディエントガイドプロンプト摂動法(Gradient Guided Prompt Perturbation)と呼ばれる新しい最適化手法を提案する。
論文 参考訳(メタデータ) (2024-02-11T12:25:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。