論文の概要: JailbreakHunter: A Visual Analytics Approach for Jailbreak Prompts Discovery from Large-Scale Human-LLM Conversational Datasets
- arxiv url: http://arxiv.org/abs/2407.03045v1
- Date: Wed, 3 Jul 2024 12:10:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 14:26:01.192770
- Title: JailbreakHunter: A Visual Analytics Approach for Jailbreak Prompts Discovery from Large-Scale Human-LLM Conversational Datasets
- Title(参考訳): JailbreakHunter: 大規模ヒューマン-LLM会話データセットからのジェイルブレイクプロンプト発見のためのビジュアル分析手法
- Authors: Zhihua Jin, Shiyi Liu, Haotian Li, Xun Zhao, Huamin Qu,
- Abstract要約: 大規模言語モデル (LLM) は注目されているが、誤用リスクが懸念されている。
JailbreakHunterは、大規模な人間とLLMの会話データセットでジェイルブレイクプロンプトを特定するためのビジュアル分析手法である。
- 参考スコア(独自算出の注目度): 41.28080625748892
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have gained significant attention but also raised concerns due to the risk of misuse. Jailbreak prompts, a popular type of adversarial attack towards LLMs, have appeared and constantly evolved to breach the safety protocols of LLMs. To address this issue, LLMs are regularly updated with safety patches based on reported jailbreak prompts. However, malicious users often keep their successful jailbreak prompts private to exploit LLMs. To uncover these private jailbreak prompts, extensive analysis of large-scale conversational datasets is necessary to identify prompts that still manage to bypass the system's defenses. This task is highly challenging due to the immense volume of conversation data, diverse characteristics of jailbreak prompts, and their presence in complex multi-turn conversations. To tackle these challenges, we introduce JailbreakHunter, a visual analytics approach for identifying jailbreak prompts in large-scale human-LLM conversational datasets. We have designed a workflow with three analysis levels: group-level, conversation-level, and turn-level. Group-level analysis enables users to grasp the distribution of conversations and identify suspicious conversations using multiple criteria, such as similarity with reported jailbreak prompts in previous research and attack success rates. Conversation-level analysis facilitates the understanding of the progress of conversations and helps discover jailbreak prompts within their conversation contexts. Turn-level analysis allows users to explore the semantic similarity and token overlap between a singleturn prompt and the reported jailbreak prompts, aiding in the identification of new jailbreak strategies. The effectiveness and usability of the system were verified through multiple case studies and expert interviews.
- Abstract(参考訳): 大規模言語モデル (LLM) は注目されているが、誤用リスクが懸念されている。
LLMに対する敵対的な攻撃であるジェイルブレイクプロンプトが出現し、LLMの安全プロトコルを破るために常に進化してきた。
この問題に対処するため、LDMは、報告されたジェイルブレイクプロンプトに基づいて、安全パッチを定期的に更新する。
しかし、悪意のあるユーザは、しばしば自分のジェイルブレイクを成功させるプロンプトをプライベートに保持し、LSMを悪用する。
これらのプライベートなジェイルブレイクプロンプトを明らかにするには、システムの防御を回避できるプロンプトを特定するために、大規模な会話データセットの広範な分析が必要である。
この課題は、大量の会話データ、ジェイルブレイクプロンプトの特徴の多様さ、複雑なマルチターン会話の存在など、極めて困難である。
これらの課題に対処するために、大規模な人間-LLM会話データセットでジェイルブレイクプロンプトを特定する視覚分析手法であるJailbreakHunterを紹介した。
グループレベル、会話レベル、ターンレベルという3つの分析レベルを持つワークフローを設計しました。
グループレベルの分析により、ユーザーは複数の基準を用いて会話の分布を把握し、不審な会話を特定できる。
会話レベルの分析は、会話の進行状況の理解を促進し、会話コンテキスト内でジェイルブレイクのプロンプトを発見するのに役立つ。
ターンレベルの分析により、ユーザーは単一ターンプロンプトと報告されたジェイルブレイクプロンプトとのセマンティックな類似性とトークンの重複を探索し、新しいジェイルブレイク戦略の特定を支援することができる。
システムの有効性とユーザビリティは,複数のケーススタディと専門家によるインタビューを通じて検証された。
関連論文リスト
- SequentialBreak: Large Language Models Can be Fooled by Embedding Jailbreak Prompts into Sequential Prompt Chains [0.0]
本稿では,大規模言語モデル(LLM)の脆弱性を利用した新しいジェイルブレイク攻撃であるSequentialBreakを紹介する。
問題バンク,ダイアログ補完,ゲーム環境などの事例に限らず,有害なプロンプトをLCMを騙して有害な応答を発生させる良質なプロンプトに埋め込む,いくつかのシナリオについて論じる。
大規模な実験では、SequentialBreakは単一のクエリしか使用せず、攻撃成功率を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-11-10T11:08:28Z) - MRJ-Agent: An Effective Jailbreak Agent for Multi-Round Dialogue [36.44365630876591]
大きな言語モデル(LLM)は、知識と理解能力の貯蓄において優れた性能を示す。
LLMは、ジェイルブレイク攻撃を受けたとき、違法または非倫理的な反応を起こしやすいことが示されている。
本稿では,人的価値に対する潜在的な脅威を識別・緩和する上でのステルスネスの重要性を強調した,複数ラウンドの対話型ジェイルブレイクエージェントを提案する。
論文 参考訳(メタデータ) (2024-11-06T10:32:09Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models [66.34505141027624]
我々は、WildTeamingを紹介した。これは自動LLM安全リチームフレームワークで、Wild-Chatbotインタラクションをマイニングし、新しいジェイルブレイク戦術の5.7Kのユニークなクラスタを発見する。
WildTeamingは、未確認のフロンティアLSMの脆弱性を明らかにし、最大4.6倍の多様性と敵の攻撃に成功した。
論文 参考訳(メタデータ) (2024-06-26T17:31:22Z) - Comprehensive Assessment of Jailbreak Attacks Against LLMs [28.58973312098698]
4つのカテゴリから13の最先端ジェイルブレイク法,16の違反カテゴリから160の質問,6つの人気のあるLDMについて検討した。
実験の結果, 最適化されたジェイルブレイクは高い攻撃成功率を確実に達成することが示された。
攻撃性能と効率のトレードオフについて論じるとともに、脱獄プロンプトの転送性は依然として維持可能であることを示す。
論文 参考訳(メタデータ) (2024-02-08T13:42:50Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z) - "Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models [50.22128133926407]
我々は2022年12月から2023年12月までの1,405件の脱獄プロンプトを包括的に分析する。
131のjailbreakコミュニティを特定し,Jailbreakプロンプトの特徴とその主要な攻撃戦略を明らかにする。
また,ChatGPT (GPT-3.5) と GPT-4 の攻撃成功率 0.95 を達成できる5つの有効なジェイルブレイクプロンプトを同定した。
論文 参考訳(メタデータ) (2023-08-07T16:55:20Z) - Jailbreaking ChatGPT via Prompt Engineering: An Empirical Study [22.411634418082368]
大規模言語モデル(LLM)は、大きな可能性を示しているが、コンテンツ制約や潜在的な誤用に関連する課題ももたらしている。
本研究は, 1 つの重要な研究課題について,(1) 脱獄性 LLM を回避できる異なるプロンプトの種類数,(2) 脱獄性 LLM 制約を回避するための脱獄性プロンプトの有効性,(3) 脱獄性プロンプトに対する ChatGPT のレジリエンスについて検討した。
論文 参考訳(メタデータ) (2023-05-23T09:33:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。