論文の概要: Analyzing the Inherent Response Tendency of LLMs: Real-World
Instructions-Driven Jailbreak
- arxiv url: http://arxiv.org/abs/2312.04127v1
- Date: Thu, 7 Dec 2023 08:29:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 15:42:14.604804
- Title: Analyzing the Inherent Response Tendency of LLMs: Real-World
Instructions-Driven Jailbreak
- Title(参考訳): LLMの本質的応答傾向の分析:実世界の命令駆動ジェイルブレイク
- Authors: Yanrui Du, Sendong Zhao, Ming Ma, Yuhan Chen, Bing Qin
- Abstract要約: 我々は新しいジェイルブレイク攻撃法(textbfRADIAL)を導入する。
1) 一貫性のある応答傾向分析と2) 実世界命令駆動のジェイルブレイクである。
提案手法は,3つのオープンソースのヒューマンアライメントLDMに対して,中国語と英語の両方の悪意のある命令に対して,優れたジェイルブレイク攻撃性能を実現する。
- 参考スコア(独自算出の注目度): 26.741029482196534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extensive work has been devoted to improving the safety mechanism of Large
Language Models (LLMs). However, in specific scenarios, LLMs still generate
harmful responses when faced with malicious instructions, a phenomenon referred
to as "Jailbreak Attack". In our research, we introduce a novel jailbreak
attack method (\textbf{RADIAL}), which consists of two steps: 1) Inherent
Response Tendency Analysis: we analyze the inherent affirmation and rejection
tendency of LLMs to react to real-world instructions. 2) Real-World
Instructions-Driven Jailbreak: based on our analysis, we strategically choose
several real-world instructions and embed malicious instructions into them to
amplify the LLM's potential to generate harmful responses. On three open-source
human-aligned LLMs, our method achieves excellent jailbreak attack performance
for both Chinese and English malicious instructions. Besides, we guided
detailed ablation experiments and verified the effectiveness of our core idea
"Inherent Response Tendency Analysis". Our exploration also exposes the
vulnerability of LLMs to being induced into generating more detailed harmful
responses in subsequent rounds of dialogue.
- Abstract(参考訳): 大規模言語モデル(llm)の安全性向上に多大な取り組みがなされている。
しかし、特定のシナリオでは、LSMは悪意のある命令に直面すると有害な応答を発生させ、これは"Jailbreak Attack"と呼ばれる現象である。
本研究では,2つのステップからなる新しいジェイルブレイク攻撃法(\textbf{radial})を提案する。
1)先行応答傾向分析: LLMの本質的な肯定と拒絶傾向を分析し,実世界の指示に反応する。
2)実世界の命令駆動のジェイルブレイク:我々の分析に基づいて,我々はいくつかの実世界の命令を戦略的に選択し,悪質な命令を埋め込んで,LLMが有害な応答を発生させる可能性を増幅する。
提案手法は,3つのオープンソースのヒューマンアライメントLDMに対して,中国語と英語の両方の悪意のある命令に対して優れたジェイルブレイク攻撃性能を実現する。
また,詳細なアブレーション実験を指導し,本研究の中核概念である「インヘレント応答傾向分析」の有効性を検証した。
また,LLMの脆弱性を暴露し,その後の対話ラウンドにおいてより詳細な有害反応を誘発する。
関連論文リスト
- SQL Injection Jailbreak: a structural disaster of large language models [71.55108680517422]
LLMによる入力プロンプトの構築を利用して、ユーザプロンプトにジェイルブレイク情報を注入する新しいジェイルブレイク手法を提案する。
提案手法は,AdvBench の文脈でよく知られた5つのオープンソース LLM に対する攻撃成功率を約100% 達成する。
論文 参考訳(メタデータ) (2024-11-03T13:36:34Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - Figure it Out: Analyzing-based Jailbreak Attack on Large Language Models [21.252514293436437]
大規模言語モデル(LLM)に対するジェイルブレイク攻撃に対する分析ベースジェイルブレイク(ABJ)を提案する。
ABJはGPT-4-turbo-0409上で94.8%の攻撃成功率(ASR)と1.06の攻撃効率(AE)を達成する。
論文 参考訳(メタデータ) (2024-07-23T06:14:41Z) - Virtual Context: Enhancing Jailbreak Attacks with Special Token Injection [54.05862550647966]
本稿では、以前LLMセキュリティで見過ごされていた特別なトークンを活用して、ジェイルブレイク攻撃を改善する仮想コンテキストを提案する。
総合的な評価によると、仮想コンテキストによるジェイルブレイク攻撃は、4つの広く使われているジェイルブレイク手法の成功率を約40%向上させることができる。
論文 参考訳(メタデータ) (2024-06-28T11:35:54Z) - Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing [14.094372002702476]
大規模言語モデル(LLM)は、広範囲の現実世界のアプリケーションで採用されつつある。
近年の研究では、LSMは故意に構築された敵のプロンプトに弱いことが示されている。
そこで本研究では,新しい防衛手法である textbfLayer-specific textbfEditing (LED) を提案する。
論文 参考訳(メタデータ) (2024-05-28T13:26:12Z) - Distract Large Language Models for Automatic Jailbreak Attack [8.364590541640482]
大規模言語モデルの自動レッドチーム化のための新しいブラックボックスジェイルブレイクフレームワークを提案する。
我々は、Jailbreak LLMに対する反復最適化アルゴリズムを用いて、悪意のあるコンテンツの隠蔽とメモリリフレーミングを設計した。
論文 参考訳(メタデータ) (2024-03-13T11:16:43Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。