論文の概要: Leveraging the Context through Multi-Round Interactions for Jailbreaking
Attacks
- arxiv url: http://arxiv.org/abs/2402.09177v1
- Date: Wed, 14 Feb 2024 13:45:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 15:20:20.182813
- Title: Leveraging the Context through Multi-Round Interactions for Jailbreaking
Attacks
- Title(参考訳): マルチラウンドインタラクションによる脱獄攻撃の活用
- Authors: Yixin Cheng, Markos Georgopoulos, Volkan Cevher, Grigorios G. Chrysos
- Abstract要約: 大規模言語モデル(LLM)は、脱獄攻撃の影響を受けやすい。
脱獄攻撃は、攻撃クエリを微調整することで有害な情報を抽出することを目的としている。
我々は、コンテキストインタラクションアタックと呼ばれる新しい攻撃形式に焦点を当てる。
- 参考スコア(独自算出の注目度): 60.7432588386185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are susceptible to Jailbreaking attacks, which
aim to extract harmful information by subtly modifying the attack query. As
defense mechanisms evolve, directly obtaining harmful information becomes
increasingly challenging for Jailbreaking attacks. In this work, inspired by
human practices of indirect context to elicit harmful information, we focus on
a new attack form called Contextual Interaction Attack. The idea relies on the
autoregressive nature of the generation process in LLMs. We contend that the
prior context--the information preceding the attack query--plays a pivotal role
in enabling potent Jailbreaking attacks. Specifically, we propose an approach
that leverages preliminary question-answer pairs to interact with the LLM. By
doing so, we guide the responses of the model toward revealing the 'desired'
harmful information. We conduct experiments on four different LLMs and
demonstrate the efficacy of this attack, which is black-box and can also
transfer across LLMs. We believe this can lead to further developments and
understanding of the context vector in LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、攻撃クエリを微調整することで有害な情報を抽出することを目的とした、Jailbreak攻撃の影響を受けやすい。
防衛機構が進化するにつれて、有害な情報を直接得ることは、脱獄攻撃に対してますます困難になる。
本研究は、有害な情報を引き出すための間接的コンテキストの人間の実践に触発され、コンテキストインタラクション攻撃と呼ばれる新たな攻撃形態に焦点を当てる。
このアイデアは、LLMにおける生成プロセスの自己回帰性に依存している。
攻撃クエリの前の情報は、強力なジェイルブレイク攻撃を可能にする上で重要な役割を担っていると我々は主張する。
具体的には,予備質問応答ペアを利用してLLMと対話する手法を提案する。
これにより、モデルからの反応を「望まれる」有害な情報を明らかにするよう導く。
我々は4つの異なるllmについて実験を行い、この攻撃の有効性を実証する。
LLMにおける文脈ベクトルのさらなる発展と理解につながると我々は信じている。
関連論文リスト
- Making Them Ask and Answer: Jailbreaking Large Language Models in Few
Queries via Disguise and Reconstruction [33.02972780172842]
攻撃者は、大きな言語モデル(LLM)から有害な応答を誘導する敵のプロンプトを作成できる
安全微調整におけるバイアスの脆弱性を特定することによって,LLMのセキュリティに関する理論的基盤を開拓した。
我々は、さまざまなオープンソースモデルとオープンソースモデルにまたがってDRAを評価し、最先端のジェイルブレイク成功率と攻撃効率を示す。
論文 参考訳(メタデータ) (2024-02-28T06:50:14Z) - Defending LLMs against Jailbreaking Attacks via Backtranslation [67.5976665870963]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
「我々は、バックトランスレーションによる脱獄攻撃からLLMを守る新しい方法を提案する。」
論文 参考訳(メタデータ) (2024-02-26T10:03:33Z) - From Noise to Clarity: Unraveling the Adversarial Suffix of Large
Language Model Attacks via Translation of Text Embeddings [64.26248561154509]
近年の研究では、有害な指示に接尾辞を付けることで、LSMの防御をハックできることが判明している。
本稿では,非可読な逆接尾辞をコヒーレントかつ可読なテキストに翻訳可能な逆接尾辞埋め込み翻訳フレームワーク(ASETF)を提案する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - Analyzing the Inherent Response Tendency of LLMs: Real-World
Instructions-Driven Jailbreak [26.741029482196534]
大規模言語モデル(LLM)が悪意ある指示に直面すると有害な応答を発生させる現象である。
本稿では,LDMのポテンシャルを増幅することでセキュリティ機構をバイパスし,肯定応答を生成する新しい自動ジェイルブレイク手法RADIALを提案する。
提案手法は,5つのオープンソースのLLMを用いて,英語の悪意のある命令に対する攻撃性能を良好に向上すると同時に,中国語の悪意のある命令に対するクロス言語攻撃の実行において,堅牢な攻撃性能を維持する。
論文 参考訳(メタデータ) (2023-12-07T08:29:58Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - Goal-Oriented Prompt Attack and Safety Evaluation for LLMs [43.93613764464993]
高品質なプロンプト攻撃サンプルを構築するパイプラインと、CPADと呼ばれる中国のプロンプト攻撃データセットを導入する。
我々のプロンプトは、慎重に設計されたいくつかのプロンプトアタックテンプレートで、予期せぬ出力を生成するためにLSMを誘導することを目的としている。
GPT-3.5に対する攻撃成功率は70%程度であった。
論文 参考訳(メタデータ) (2023-09-21T07:07:49Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。