論文の概要: Analyzing the Inherent Response Tendency of LLMs: Real-World
Instructions-Driven Jailbreak
- arxiv url: http://arxiv.org/abs/2312.04127v2
- Date: Fri, 23 Feb 2024 07:32:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 17:37:31.281404
- Title: Analyzing the Inherent Response Tendency of LLMs: Real-World
Instructions-Driven Jailbreak
- Title(参考訳): LLMの本質的応答傾向の分析:実世界の命令駆動ジェイルブレイク
- Authors: Yanrui Du, Sendong Zhao, Ming Ma, Yuhan Chen, Bing Qin
- Abstract要約: 大規模言語モデル(LLM)が悪意ある指示に直面すると有害な応答を発生させる現象である。
本稿では,LDMのポテンシャルを増幅することでセキュリティ機構をバイパスし,肯定応答を生成する新しい自動ジェイルブレイク手法RADIALを提案する。
提案手法は,5つのオープンソースのLLMを用いて,英語の悪意のある命令に対する攻撃性能を良好に向上すると同時に,中国語の悪意のある命令に対するクロス言語攻撃の実行において,堅牢な攻撃性能を維持する。
- 参考スコア(独自算出の注目度): 26.741029482196534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extensive work has been devoted to improving the safety mechanism of Large
Language Models (LLMs). However, LLMs still tend to generate harmful responses
when faced with malicious instructions, a phenomenon referred to as "Jailbreak
Attack". In our research, we introduce a novel automatic jailbreak method
RADIAL, which bypasses the security mechanism by amplifying the potential of
LLMs to generate affirmation responses. The jailbreak idea of our method is
"Inherent Response Tendency Analysis" which identifies real-world instructions
that can inherently induce LLMs to generate affirmation responses and the
corresponding jailbreak strategy is "Real-World Instructions-Driven Jailbreak"
which involves strategically splicing real-world instructions identified
through the above analysis around the malicious instruction. Our method
achieves excellent attack performance on English malicious instructions with
five open-source advanced LLMs while maintaining robust attack performance in
executing cross-language attacks against Chinese malicious instructions. We
conduct experiments to verify the effectiveness of our jailbreak idea and the
rationality of our jailbreak strategy design. Notably, our method designed a
semantically coherent attack prompt, highlighting the potential risks of LLMs.
Our study provides detailed insights into jailbreak attacks, establishing a
foundation for the development of safer LLMs.
- Abstract(参考訳): 大規模言語モデル(llm)の安全性向上に多大な取り組みがなされている。
しかし、LSMは「ジェイルブレイク・アタック(Jailbreak Attack)」と呼ばれる悪質な指示に直面すると有害な反応を生じる傾向にある。
本研究では,LDMの可能性を増幅し,肯定応答を生成することにより,セキュリティ機構をバイパスする新しい自動ジェイルブレイク手法RADIALを提案する。
本手法のジェイルブレイクの考え方は,LLMを自然に誘導して肯定応答を生成できる実世界の命令を識別する「インヒーレント・レスポンス・テンデンシー・アナリティクス」であり,それに対応するジェイルブレイク戦略は「Real-World Instructions-Driven Jailbreak」である。
提案手法は,5つのオープンソースのLLMを用いて,英語の悪意のある命令に対する攻撃性能を良好に向上すると同時に,中国語の悪意のある命令に対するクロス言語攻撃の実行において堅牢な攻撃性能を維持する。
脱獄の考え方の有効性と脱獄戦略設計の合理性を検証する実験を行った。
特に,本手法は,llmの潜在的なリスクを浮き彫りにした,意味的に一貫性のある攻撃プロンプトを設計した。
我々の研究は、脱獄攻撃に関する詳細な知見を提供し、より安全なLSMの開発のための基盤を確立する。
関連論文リスト
- Tastle: Distract Large Language Models for Automatic Jailbreak Attack [9.137714258654842]
大規模言語モデル(LLM)の自動レッドチーム化のためのブラックボックスジェイルブレイクフレームワークを提案する。
我々のフレームワークは、有効性、スケーラビリティ、転送性において優れている。
また,攻撃に対する既存のジェイルブレイク防御手法の有効性についても検討した。
論文 参考訳(メタデータ) (2024-03-13T11:16:43Z) - Leveraging the Context through Multi-Round Interactions for Jailbreaking
Attacks [60.7432588386185]
大規模言語モデル(LLM)は、脱獄攻撃の影響を受けやすい。
脱獄攻撃は、攻撃クエリを微調整することで有害な情報を抽出することを目的としている。
我々は、コンテキストインタラクションアタックと呼ばれる新しい攻撃形式に焦点を当てる。
論文 参考訳(メタデータ) (2024-02-14T13:45:19Z) - Comprehensive Assessment of Jailbreak Attacks Against LLMs [28.58973312098698]
4つのカテゴリから13の最先端ジェイルブレイク法,16の違反カテゴリから160の質問,6つの人気のあるLDMについて検討した。
実験の結果, 最適化されたジェイルブレイクは高い攻撃成功率を確実に達成することが示された。
攻撃性能と効率のトレードオフについて論じるとともに、脱獄プロンプトの転送性は依然として維持可能であることを示す。
論文 参考訳(メタデータ) (2024-02-08T13:42:50Z) - GUARD: Role-playing to Generate Natural-language Jailbreakings to Test
Guideline Adherence of Large Language Models [17.09386716887775]
主要な安全策の1つは、リリース前にジェイルブレイクで大規模言語モデルを積極的にテストすることである。
我々は,人間の世代スタイルでジェイルブレイクを発生させるための,新しい直感的かつ直感的な戦略を提案する。
我々の異なる役割のシステムは、この知識グラフを利用して新しいジェイルブレイクを生成する。
論文 参考訳(メタデータ) (2024-02-05T18:54:43Z) - Jailbreaking Attack against Multimodal Large Language Model [69.52466793164618]
本稿では,マルチモーダル大規模言語モデル(MLLM)に対するジェイルブレイク攻撃に焦点を当てた。
imgJP (emphimage Jailbreaking Prompt) の探索手法を提案する。
提案手法は, 生成したimgJPをジェイルブレイクモデルに転送できるため, 強いモデル伝達性を示す。
論文 参考訳(メタデータ) (2024-02-04T01:29:24Z) - Open the Pandora's Box of LLMs: Jailbreaking LLMs through Representation
Engineering [44.10397472780012]
Representation Engineering (JRE) による Jailbreaking LLMs という新しいjailbreakingアプローチを提案する。
本手法では,対象モデルの防御を回避できる「安全パターン」を抽出するために,少数のクエリペアしか必要としない。
また、これらの知見に基づいて、JRE原則に着想を得た新しい防御フレームワークを導入し、顕著な効果を示した。
論文 参考訳(メタデータ) (2024-01-12T00:50:04Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文 参考訳(メタデータ) (2023-10-23T17:46:07Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [102.17459476527233]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
これらの脆弱性を特定するために,PAIR(Prompt Automatic Iterative Refinement)を提案する。
PAIRは、LCMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。