論文の概要: Play Guessing Game with LLM: Indirect Jailbreak Attack with Implicit
Clues
- arxiv url: http://arxiv.org/abs/2402.09091v2
- Date: Fri, 16 Feb 2024 10:24:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 12:38:03.936584
- Title: Play Guessing Game with LLM: Indirect Jailbreak Attack with Implicit
Clues
- Title(参考訳): LLMを使ったゲーム「Play Guessing Game」: 間接的ジェイルブレイク攻撃
- Authors: Zhiyuan Chang, Mingyang Li, Yi Liu, Junjie Wang, Qing Wang, Yang Liu
- Abstract要約: 本稿では, LLM の防御戦略を回避し, 悪意のある応答を得る, 間接的ジェイルブレイク攻撃手法である Puzzler を提案する。
実験の結果,Puzzler はクローズドソース LLM 上で96.6% のクエリ成功率を達成した。
最先端のjailbreak検出アプローチに対してテストすると、Puzzlerはベースラインよりも検出を回避するのに効果的であることを証明している。
- 参考スコア(独自算出の注目度): 16.97760778679782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the development of LLMs, the security threats of LLMs are getting more
and more attention. Numerous jailbreak attacks have been proposed to assess the
security defense of LLMs. Current jailbreak attacks primarily utilize scenario
camouflage techniques. However their explicitly mention of malicious intent
will be easily recognized and defended by LLMs. In this paper, we propose an
indirect jailbreak attack approach, Puzzler, which can bypass the LLM's defense
strategy and obtain malicious response by implicitly providing LLMs with some
clues about the original malicious query. In addition, inspired by the wisdom
of "When unable to attack, defend" from Sun Tzu's Art of War, we adopt a
defensive stance to gather clues about the original malicious query through
LLMs. Extensive experimental results show that Puzzler achieves a query success
rate of 96.6% on closed-source LLMs, which is 57.9%-82.7% higher than
baselines. Furthermore, when tested against the state-of-the-art jailbreak
detection approaches, Puzzler proves to be more effective at evading detection
compared to baselines.
- Abstract(参考訳): LLMの開発に伴い、LLMのセキュリティ上の脅威がますます注目されている。
LLMのセキュリティ防衛を評価するために、数多くのジェイルブレイク攻撃が提案されている。
現在のジェイルブレイク攻撃は主にシナリオカモフラージュ技術を利用している。
しかし、悪質な意図について明確に言及することは、LLMによって容易に認識され、防御される。
本稿では, LLMの防御戦略を回避し, LLMに対して元の悪意のあるクエリに関するヒントを暗黙的に提供することによって悪意のある応答を得ることができる間接的ジェイルブレイク攻撃手法であるPuzzlerを提案する。
また、Sun TzuのArt of Warの「攻撃できず、防御もできない」という知恵に触発されて、LSMを通じて元の悪意あるクエリの手がかりを収集する防御的姿勢を採用した。
大規模な実験の結果、Puzzler はクローズドソース LLM で96.6% のクエリ成功率を達成しており、ベースラインよりも57.9%-82.7% 高い。
さらに、最先端のジェイルブレイク検出アプローチに対してテストすると、ベースラインよりも脱獄検出に有効であることが分かる。
関連論文リスト
- Investigating the prompt leakage effect and black-box defenses for multi-turn LLM interactions [125.21418304558948]
大きな言語モデル(LLM)の漏洩は、セキュリティとプライバシの重大な脅威を引き起こす。
マルチターンLDM相互作用の漏洩と緩和戦略は、標準化された方法では研究されていない。
本稿では,4つの異なるドメインと10のクローズドおよびオープンソース LLM にまたがる急激なリークに対するLSM 脆弱性について検討する。
論文 参考訳(メタデータ) (2024-04-24T23:39:58Z) - Uncovering Safety Risks in Open-source LLMs through Concept Activation Vector [62.23945242640024]
本稿では,概念に基づくモデル記述を用いたLLM攻撃手法を提案する。
安全概念アクティベーションベクトル(SCAV)をLLMのアクティベーション空間から抽出し、適切に整列されたLCMに対する効率的な攻撃を可能にする。
このことは、LLMが徹底的な安全調整をした後でも、社会に公開時に潜在的リスクを及ぼす可能性があることを示唆している。
論文 参考訳(メタデータ) (2024-04-18T09:46:25Z) - Subtoxic Questions: Dive Into Attitude Change of LLM's Response in Jailbreak Attempts [13.176057229119408]
Prompt Jailbreakingの言語モデル(LLM)がますます注目を集めています。
本稿では,ジェイルブレイクのプロンプトに対して本質的により敏感な,対象とする一連の質問に焦点をあてて,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-12T08:08:44Z) - Tastle: Distract Large Language Models for Automatic Jailbreak Attack [9.137714258654842]
大規模言語モデル(LLM)の自動レッドチーム化のためのブラックボックスジェイルブレイクフレームワークを提案する。
我々のフレームワークは、有効性、スケーラビリティ、転送性において優れている。
また,攻撃に対する既存のジェイルブレイク防御手法の有効性についても検討した。
論文 参考訳(メタデータ) (2024-03-13T11:16:43Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - Comprehensive Assessment of Jailbreak Attacks Against LLMs [28.58973312098698]
4つのカテゴリから13の最先端ジェイルブレイク法,16の違反カテゴリから160の質問,6つの人気のあるLDMについて検討した。
実験の結果, 最適化されたジェイルブレイクは高い攻撃成功率を確実に達成することが示された。
攻撃性能と効率のトレードオフについて論じるとともに、脱獄プロンプトの転送性は依然として維持可能であることを示す。
論文 参考訳(メタデータ) (2024-02-08T13:42:50Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [102.17459476527233]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
これらの脆弱性を特定するために,PAIR(Prompt Automatic Iterative Refinement)を提案する。
PAIRは、LCMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。