論文の概要: Leveraging the Context through Multi-Round Interactions for Jailbreaking Attacks
- arxiv url: http://arxiv.org/abs/2402.09177v2
- Date: Wed, 02 Oct 2024 10:43:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 15:19:11.656859
- Title: Leveraging the Context through Multi-Round Interactions for Jailbreaking Attacks
- Title(参考訳): ジェイルブレイク攻撃におけるマルチラウンドインタラクションによるコンテキストの活用
- Authors: Yixin Cheng, Markos Georgopoulos, Volkan Cevher, Grigorios G. Chrysos,
- Abstract要約: 大規模言語モデル(LLM)は、脱獄攻撃の影響を受けやすい。
脱獄攻撃は、攻撃クエリを微調整することで有害な情報を抽出することを目的としている。
我々は、コンテキストインタラクションアタックと呼ばれる新しい攻撃形式に焦点を当てる。
- 参考スコア(独自算出の注目度): 55.603893267803265
- License:
- Abstract: Large Language Models (LLMs) are susceptible to Jailbreaking attacks, which aim to extract harmful information by subtly modifying the attack query. As defense mechanisms evolve, directly obtaining harmful information becomes increasingly challenging for Jailbreaking attacks. In this work, inspired from Chomsky's transformational-generative grammar theory and human practices of indirect context to elicit harmful information, we focus on a new attack form, called Contextual Interaction Attack. We contend that the prior context\u2014the information preceding the attack query\u2014plays a pivotal role in enabling strong Jailbreaking attacks. Specifically, we propose a first multi-turn approach that leverages benign preliminary questions to interact with the LLM. Due to the autoregressive nature of LLMs, which use previous conversation rounds as context during generation, we guide the model's question-response pair to construct a context that is semantically aligned with the attack query to execute the attack. We conduct experiments on seven different LLMs and demonstrate the efficacy of this attack, which is black-box and can also transfer across LLMs. We believe this can lead to further developments and understanding of security in LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、攻撃クエリを微調整することで有害な情報を抽出することを目的とした、Jailbreak攻撃の影響を受けやすい。
防衛機構が進化するにつれて、有害な情報を直接入手することは、ジェイルブレイク攻撃においてますます困難になる。
この研究は、チョムスキーの変換生成文法理論と、有害な情報を引き出す間接的文脈の人間の実践から着想を得たもので、文脈相互作用攻撃と呼ばれる新たな攻撃形態に焦点を当てる。
我々は、アタッククエリの前にある情報であるu2014が、強力なジェイルブレイク攻撃を可能にする重要な役割を担っていることを主張する。
具体的には、良性予備問題を利用してLLMと対話する第1のマルチターンアプローチを提案する。
生成時に過去の会話ラウンドをコンテキストとして使用するLDMの自己回帰性のため、モデルの質問応答ペアを誘導して、攻撃クエリと意味的に整合したコンテキストを構築して攻撃を実行する。
我々は7種類のLDM実験を行い、この攻撃の有効性を実証した。
LLMのさらなる発展とセキュリティの理解につながると我々は信じている。
関連論文リスト
- Jailbreak Attacks and Defenses Against Large Language Models: A Survey [22.392989536664288]
大規模言語モデル(LLM)は、様々なテキスト生成タスクにおいて例外的に機能している。
ジェイルブレイク」は、利用方針や社会に対する悪意ある反応をモデルに誘導する。
本稿では,ジェイルブレイク攻撃と防衛方法の包括的かつ詳細な分類法を提案する。
論文 参考訳(メタデータ) (2024-07-05T06:57:30Z) - WordGame: Efficient & Effective LLM Jailbreak via Simultaneous Obfuscation in Query and Response [23.344727384686898]
我々は、現在の安全アライメントの共通パターンを分析し、クエリとレスポンスの同時難読化により、これらのパターンをジェイルブレイク攻撃に活用可能であることを示す。
具体的には、悪意のある単語をワードゲームに置き換えて、クエリの敵意を分解するWordGame攻撃を提案する。
論文 参考訳(メタデータ) (2024-05-22T21:59:22Z) - Chain of Attack: a Semantic-Driven Contextual Multi-Turn attacker for LLM [27.046944831084776]
大規模言語モデル (LLM) は様々な自然言語処理タスクにおいて顕著な性能を発揮している。
CoAは、アタックポリシーを適応的に調整する意味駆動型コンテキスト型マルチターンアタック手法である。
我々は、CoAがLLMの脆弱性を効果的に暴露し、既存の攻撃方法より優れていることを示す。
論文 参考訳(メタデータ) (2024-05-09T08:15:21Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。