論文の概要: Red Teaming the Mind of the Machine: A Systematic Evaluation of Prompt Injection and Jailbreak Vulnerabilities in LLMs
- arxiv url: http://arxiv.org/abs/2505.04806v1
- Date: Wed, 07 May 2025 21:15:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.680355
- Title: Red Teaming the Mind of the Machine: A Systematic Evaluation of Prompt Injection and Jailbreak Vulnerabilities in LLMs
- Title(参考訳): マシンの心の赤いチーム: LLMにおけるプロンプトインジェクションとジェイルブレイク脆弱性の体系的評価
- Authors: Chetan Pathade,
- Abstract要約: 大規模言語モデル(LLM)は、消費者およびエンタープライズアプリケーションにますます統合されている。
その能力にもかかわらず、アライメントセーフガードをオーバーライドする迅速な注射やジェイルブレイクのような敵の攻撃を受けやすいままである。
本稿では,様々な最先端のLDMに対するジェイルブレイク対策を体系的に検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly integrated into consumer and enterprise applications. Despite their capabilities, they remain susceptible to adversarial attacks such as prompt injection and jailbreaks that override alignment safeguards. This paper provides a systematic investigation of jailbreak strategies against various state-of-the-art LLMs. We categorize over 1,400 adversarial prompts, analyze their success against GPT-4, Claude 2, Mistral 7B, and Vicuna, and examine their generalizability and construction logic. We further propose layered mitigation strategies and recommend a hybrid red-teaming and sandboxing approach for robust LLM security.
- Abstract(参考訳): 大規模言語モデル(LLM)は、消費者およびエンタープライズアプリケーションにますます統合されている。
その能力にもかかわらず、アライメントセーフガードをオーバーライドする迅速な注射やジェイルブレイクのような敵の攻撃を受けやすいままである。
本稿では,様々な最先端のLDMに対するジェイルブレイク対策を体系的に検討する。
我々は,1,400以上の敵対的プロンプトを分類し,GPT-4,Claude 2,Mistral 7B,Vicunaに対してそれらの成功を分析し,それらの一般化可能性と構築論理について検討した。
さらに、階層化緩和戦略を提案し、ロバストLLMセキュリティのためのハイブリッドレッドチームとサンドボックスのアプローチを推奨する。
関連論文リスト
- RedAgent: Red Teaming Large Language Models with Context-aware Autonomous Language Agent [24.487441771427434]
我々は,コンテキスト認識型ジェイルブレイクプロンプトを生成するためのマルチエージェントLLMシステムRedAgentを提案する。
我々のシステムは、ほとんどのブラックボックスLSMをたった5つのクエリでジェイルブレイクすることができ、既存のレッドチーム方式の効率を2倍に向上させることができる。
すべての問題を報告し、バグ修正のためにOpenAIとMetaと通信しました。
論文 参考訳(メタデータ) (2024-07-23T17:34:36Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z) - Comprehensive Assessment of Jailbreak Attacks Against LLMs [26.981225219312627]
様々なジェイルブレイク攻撃法を大規模に測定した。
我々は17の最先端のジェイルブレイク手法を収集し、それらの特徴を要約し、新しいジェイルブレイク攻撃分類を確立した。
検閲された8つのLLMと16の違反カテゴリからの160の質問に基づいて、攻撃の有効性を統一的かつ公平に評価する。
論文 参考訳(メタデータ) (2024-02-08T13:42:50Z) - Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts [64.60375604495883]
GPT-4Vでは,システムに侵入する脆弱性が発見された。
GPT-4を自身に対するレッド・チーム・ツールとして活用することで、盗難システムプロンプトを利用した脱獄プロンプトの可能性を探索することを目指している。
また,システムプロンプトの変更による脱獄攻撃に対する防御効果も評価した。
論文 参考訳(メタデータ) (2023-11-15T17:17:39Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。