論文の概要: Dialogue Injection Attack: Jailbreaking LLMs through Context Manipulation
- arxiv url: http://arxiv.org/abs/2503.08195v1
- Date: Tue, 11 Mar 2025 09:00:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:44:24.145163
- Title: Dialogue Injection Attack: Jailbreaking LLMs through Context Manipulation
- Title(参考訳): ダイアログインジェクション攻撃:コンテキスト操作によるLLMの脱獄
- Authors: Wenlong Meng, Fan Zhang, Wendao Yao, Zhenyuan Guo, Yuwei Li, Chengkun Wei, Wenzhi Chen,
- Abstract要約: 本稿では,これらの攻撃の成功率を高めるために,対話履歴を活用する新しいジェイルブレイクパラダイムであるダイアログインジェクションアタック(DIA)を導入する。
DIAはブラックボックスで動作し、チャットAPIへのアクセスやLLMのチャットテンプレートの知識のみを必要とする。
Llama-3.1 や GPT-4o など最近の LLM では,DIA が攻撃成功率を達成している。
- 参考スコア(独自算出の注目度): 12.376058015074186
- License:
- Abstract: Large language models (LLMs) have demonstrated significant utility in a wide range of applications; however, their deployment is plagued by security vulnerabilities, notably jailbreak attacks. These attacks manipulate LLMs to generate harmful or unethical content by crafting adversarial prompts. While much of the current research on jailbreak attacks has focused on single-turn interactions, it has largely overlooked the impact of historical dialogues on model behavior. In this paper, we introduce a novel jailbreak paradigm, Dialogue Injection Attack (DIA), which leverages the dialogue history to enhance the success rates of such attacks. DIA operates in a black-box setting, requiring only access to the chat API or knowledge of the LLM's chat template. We propose two methods for constructing adversarial historical dialogues: one adapts gray-box prefilling attacks, and the other exploits deferred responses. Our experiments show that DIA achieves state-of-the-art attack success rates on recent LLMs, including Llama-3.1 and GPT-4o. Additionally, we demonstrate that DIA can bypass 5 different defense mechanisms, highlighting its robustness and effectiveness.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広いアプリケーションにおいて大きな有用性を示しているが、そのデプロイはセキュリティ上の脆弱性、特にジェイルブレイク攻撃に悩まされている。
これらの攻撃はLSMを操り、敵のプロンプトを作れば有害または非倫理的な内容を生成する。
ジェイルブレイク攻撃に関する現在の研究の多くは、シングルターンインタラクションに重点を置いているが、過去の対話がモデル行動に与える影響はほとんど見過ごされている。
本稿では,これらの攻撃の成功率を高めるために,対話履歴を活用する新しいジェイルブレイクパラダイムであるダイアログインジェクションアタック(DIA)を紹介する。
DIAはブラックボックスで動作し、チャットAPIへのアクセスやLLMのチャットテンプレートの知識のみを必要とする。
そこで本稿では,灰色箱前処理攻撃を適応させる手法と,遅延応答を悪用する手法の2つの手法を提案する。
Llama-3.1 や GPT-4o など最近の LLM では,DIA が攻撃成功率を達成している。
さらに,DIAは5つの防御機構をバイパスし,その堅牢性と有効性を強調した。
関連論文リスト
- `Do as I say not as I do': A Semi-Automated Approach for Jailbreak Prompt Attack against Multimodal LLMs [6.151779089440453]
マルチモーダル大言語モデル(LLM)に対する最初の音声ベースのジェイルブレイク攻撃を導入する。
本稿では,不許可なプロンプトを,良心的かつ物語駆動的なプロンプトによって側面に配置する,新たな戦略を提案する。
我々は、Flanking Attackは最先端のLLMを操作でき、不整合および禁止された出力を生成することを実証する。
論文 参考訳(メタデータ) (2025-02-02T10:05:08Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - MRJ-Agent: An Effective Jailbreak Agent for Multi-Round Dialogue [35.7801861576917]
大きな言語モデル(LLM)は、知識と理解能力の貯蓄において優れた性能を示す。
LLMは、ジェイルブレイク攻撃を受けたとき、違法または非倫理的な反応を起こしやすいことが示されている。
本稿では,人的価値に対する潜在的な脅威を識別・緩和する上でのステルスネスの重要性を強調した,複数ラウンドの対話型ジェイルブレイクエージェントを提案する。
論文 参考訳(メタデータ) (2024-11-06T10:32:09Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - Leveraging the Context through Multi-Round Interactions for Jailbreaking Attacks [55.603893267803265]
大規模言語モデル(LLM)は、脱獄攻撃の影響を受けやすい。
脱獄攻撃は、攻撃クエリを微調整することで有害な情報を抽出することを目的としている。
我々は、コンテキストインタラクションアタックと呼ばれる新しい攻撃形式に焦点を当てる。
論文 参考訳(メタデータ) (2024-02-14T13:45:19Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。