論文の概要: Response Attack: Exploiting Contextual Priming to Jailbreak Large Language Models
- arxiv url: http://arxiv.org/abs/2507.05248v1
- Date: Mon, 07 Jul 2025 17:56:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.558412
- Title: Response Attack: Exploiting Contextual Priming to Jailbreak Large Language Models
- Title(参考訳): 反応攻撃: 大規模言語モデルをジェイルブレイクするコンテキストプライミングを爆発させる
- Authors: Ziqi Miao, Lijun Li, Yuan Xiong, Zhenhua Liu, Pengyu Zhu, Jing Shao,
- Abstract要約: 初期の刺激が後続の判断を隠蔽する文脈プライミングは、大言語モデル(LLM)に対する未探索の攻撃面を提供する。
本稿では、補助LDMを用いて、元の悪意のあるクエリのパラフレーズ付きバージョンに対して、軽度に有害な応答を生成するレスポンスアタックを提案する。
RAは7つの最先端のジェイルブレイクテクニックを一貫して上回り、より高い攻撃成功率を達成している。
- 参考スコア(独自算出の注目度): 17.860698041523918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contextual priming, where earlier stimuli covertly bias later judgments, offers an unexplored attack surface for large language models (LLMs). We uncover a contextual priming vulnerability in which the previous response in the dialogue can steer its subsequent behavior toward policy-violating content. Building on this insight, we propose Response Attack, which uses an auxiliary LLM to generate a mildly harmful response to a paraphrased version of the original malicious query. They are then formatted into the dialogue and followed by a succinct trigger prompt, thereby priming the target model to generate harmful content. Across eight open-source and proprietary LLMs, RA consistently outperforms seven state-of-the-art jailbreak techniques, achieving higher attack success rates. To mitigate this threat, we construct and release a context-aware safety fine-tuning dataset, which significantly reduces the attack success rate while preserving model capabilities. The code and data are available at https://github.com/Dtc7w3PQ/Response-Attack.
- Abstract(参考訳): 文脈プライミング(Contextual priming)は、初期の刺激が後続の判断を隠蔽的にバイアスし、大きな言語モデル(LLM)に対する未探索の攻撃面を提供する。
我々は、対話における前の応答が、ポリシー違反コンテンツに対するその後の振る舞いを制御できるコンテキストプライミング脆弱性を明らかにする。
この知見に基づいて、我々は、補助的なLCMを用いて、元の悪意のあるクエリのパラフレーズ付きバージョンに対して、軽度に有害な応答を生成するレスポンスアタックを提案する。
その後、それらはダイアログにフォーマットされ、その後、簡潔なトリガープロンプトが続き、ターゲットモデルが有害なコンテンツを生成する。
8つのオープンソースおよびプロプライエタリなLLMにおいて、RAは7つの最先端のジェイルブレイクテクニックを一貫して上回り、より高い攻撃成功率を実現している。
この脅威を軽減するため、我々は、モデル機能を維持しながら攻撃成功率を著しく低減する、コンテキスト対応の安全微調整データセットを構築し、リリースする。
コードとデータはhttps://github.com/Dtc7w3PQ/Response-Attack.comで公開されている。
関連論文リスト
- Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。
近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。
脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - DROJ: A Prompt-Driven Attack against Large Language Models [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる例外的な機能を示している。
大規模なアライメント努力にもかかわらず、LLMは相変わらず敵の脱獄攻撃を受けやすいままである。
我々はDROJ(Directed Rrepresentation Optimization Jailbreak)という新しいアプローチを導入する。
論文 参考訳(メタデータ) (2024-11-14T01:48:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。