論文の概要: Multi-Turn Context Jailbreak Attack on Large Language Models From First Principles
- arxiv url: http://arxiv.org/abs/2408.04686v1
- Date: Thu, 8 Aug 2024 09:18:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 17:30:10.217640
- Title: Multi-Turn Context Jailbreak Attack on Large Language Models From First Principles
- Title(参考訳): 第一原理に基づく大規模言語モデルに対するマルチターン・コンテキスト・ジェイルブレイク攻撃
- Authors: Xiongtao Sun, Deyue Zhang, Dongdong Yang, Quanchen Zou, Hui Li,
- Abstract要約: コンテキスト・フュージョン・アタック (Context Fusion Attack, CFA) は、コンテキスト・フュージョン・ブラックボックス・ジェイルブレイク・アタックの手法である。
また,他の多ターン攻撃戦略と比較して,CFAの成功率,ばらつき,有害性を示す。
- 参考スコア(独自算出の注目度): 2.5167155755957316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have significantly enhanced the performance of numerous applications, from intelligent conversations to text generation. However, their inherent security vulnerabilities have become an increasingly significant challenge, especially with respect to jailbreak attacks. Attackers can circumvent the security mechanisms of these LLMs, breaching security constraints and causing harmful outputs. Focusing on multi-turn semantic jailbreak attacks, we observe that existing methods lack specific considerations for the role of multiturn dialogues in attack strategies, leading to semantic deviations during continuous interactions. Therefore, in this paper, we establish a theoretical foundation for multi-turn attacks by considering their support in jailbreak attacks, and based on this, propose a context-based contextual fusion black-box jailbreak attack method, named Context Fusion Attack (CFA). This method approach involves filtering and extracting key terms from the target, constructing contextual scenarios around these terms, dynamically integrating the target into the scenarios, replacing malicious key terms within the target, and thereby concealing the direct malicious intent. Through comparisons on various mainstream LLMs and red team datasets, we have demonstrated CFA's superior success rate, divergence, and harmfulness compared to other multi-turn attack strategies, particularly showcasing significant advantages on Llama3 and GPT-4.
- Abstract(参考訳): 大規模言語モデル(LLM)は、インテリジェントな会話からテキスト生成に至るまで、多数のアプリケーションの性能を大幅に向上させた。
しかし、その固有のセキュリティ脆弱性は、特にジェイルブレイク攻撃に関して、ますます重大な課題になっている。
攻撃者はこれらのLLMのセキュリティメカニズムを回避でき、セキュリティ制約を破り、有害な出力を引き起こす。
マルチターン・セマンティック・ジェイルブレイク攻撃に着目し、攻撃戦略におけるマルチターン・ダイアログの役割について、既存の手法では具体的な考慮が欠如しており、連続的相互作用におけるセマンティックな差異が生じる。
そこで本稿では,ジェイルブレイク攻撃に対する支援を考慮し,マルチターン攻撃の理論的基盤を確立し,これに基づいてコンテキストベースのコンテキストベース統合ブラックボックスジェイルブレイク攻撃手法であるContext Fusion Attack (CFA)を提案する。
このアプローチでは、ターゲットからキー用語をフィルタリングして抽出し、これらの用語を囲むコンテキストシナリオを構築し、ターゲットを動的にシナリオに統合し、ターゲット内の悪意のあるキー用語を置き換え、それによって直接悪意のある意図を隠蔽する。
各種のLLMとレッドチームのデータセットを比較して、他のマルチターン攻撃戦略、特にLlama3とGPT-4に対する大きなアドバンテージを示すCFAの成功率、ばらつき、有害性を実証した。
関連論文リスト
- MRJ-Agent: An Effective Jailbreak Agent for Multi-Round Dialogue [36.44365630876591]
大きな言語モデル(LLM)は、知識と理解能力の貯蓄において優れた性能を示す。
LLMは、ジェイルブレイク攻撃を受けたとき、違法または非倫理的な反応を起こしやすいことが示されている。
本稿では,人的価値に対する潜在的な脅威を識別・緩和する上でのステルスネスの重要性を強調した,複数ラウンドの対話型ジェイルブレイクエージェントを提案する。
論文 参考訳(メタデータ) (2024-11-06T10:32:09Z) - Jailbreaking and Mitigation of Vulnerabilities in Large Language Models [4.564507064383306]
大規模言語モデル(LLM)は、自然言語の理解と生成を前進させることで、人工知能を変革した。
これらの進歩にもかかわらず、LSMは、特に注射と脱獄攻撃を急ぐために、かなりの脆弱性を示してきた。
このレビューでは、これらの脆弱性についての研究状況を分析し、利用可能な防衛戦略を提示する。
論文 参考訳(メタデータ) (2024-10-20T00:00:56Z) - BlackDAN: A Black-Box Multi-Objective Approach for Effective and Contextual Jailbreaking of Large Language Models [47.576957746503666]
BlackDANは、多目的最適化を備えた革新的なブラックボックス攻撃フレームワークである。
ジェイルブレイクを効果的に促進する高品質なプロンプトを生成する。
コンテキスト関連性を維持し、検出可能性を最小限にする。
論文 参考訳(メタデータ) (2024-10-13T11:15:38Z) - Adversarial Tuning: Defending Against Jailbreak Attacks for LLMs [13.317364896194903]
本稿では,大規模言語モデルの汎用防衛能力を高めるための2段階の逆調整フレームワークを提案する。
第1段階では,トークンレベルの逆数生成を効率的に行うために,階層型メタユニバーサル逆数学習を導入する。
第2段階では,自動対向プロンプト学習により,意味レベルの対向プロンプトを反復的に洗練する手法を提案する。
論文 参考訳(メタデータ) (2024-06-07T15:37:15Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Leveraging the Context through Multi-Round Interactions for Jailbreaking Attacks [55.603893267803265]
大規模言語モデル(LLM)は、脱獄攻撃の影響を受けやすい。
脱獄攻撃は、攻撃クエリを微調整することで有害な情報を抽出することを目的としている。
我々は、コンテキストインタラクションアタックと呼ばれる新しい攻撃形式に焦点を当てる。
論文 参考訳(メタデータ) (2024-02-14T13:45:19Z) - Hijacking Large Language Models via Adversarial In-Context Learning [8.15194326639149]
In-context Learning (ICL)は、特定の下流タスクにLLMを活用する強力なパラダイムとして登場した。
既存の攻撃は、検出しやすく、外部モデルに依存しているか、ICLに対する特異性を欠いている。
この研究は、これらの問題に対処するために、新たなICLに対するトランスファー可能な攻撃を導入する。
論文 参考訳(メタデータ) (2023-11-16T15:01:48Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。