論文の概要: Anyone Can Jailbreak: Prompt-Based Attacks on LLMs and T2Is
- arxiv url: http://arxiv.org/abs/2507.21820v1
- Date: Tue, 29 Jul 2025 13:55:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.448284
- Title: Anyone Can Jailbreak: Prompt-Based Attacks on LLMs and T2Is
- Title(参考訳): LLMとT2Iのプロンプトベースの攻撃、誰でもジェイルブレイクできる
- Authors: Ahmed B Mustafa, Zihan Ye, Yang Lu, Michael P Pound, Shreyank N Gowda,
- Abstract要約: 大規模言語モデル(LLM)とテキスト・トゥ・イメージ(T2I)システムは、ジェイルブレイクとして知られるプロンプトベースの攻撃に対して脆弱である。
本稿では,非専門家が安全メカニズムを確実に回避する方法について,システムスタイルの考察を行う。
本稿では,テキスト出力モデルとT2Iモデルの両方にまたがる,即時レベルのジェイルブレイク戦略の統一分類法を提案する。
- 参考スコア(独自算出の注目度): 8.214994509812724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite significant advancements in alignment and content moderation, large language models (LLMs) and text-to-image (T2I) systems remain vulnerable to prompt-based attacks known as jailbreaks. Unlike traditional adversarial examples requiring expert knowledge, many of today's jailbreaks are low-effort, high-impact crafted by everyday users with nothing more than cleverly worded prompts. This paper presents a systems-style investigation into how non-experts reliably circumvent safety mechanisms through techniques such as multi-turn narrative escalation, lexical camouflage, implication chaining, fictional impersonation, and subtle semantic edits. We propose a unified taxonomy of prompt-level jailbreak strategies spanning both text-output and T2I models, grounded in empirical case studies across popular APIs. Our analysis reveals that every stage of the moderation pipeline, from input filtering to output validation, can be bypassed with accessible strategies. We conclude by highlighting the urgent need for context-aware defenses that reflect the ease with which these jailbreaks can be reproduced in real-world settings.
- Abstract(参考訳): アライメントとコンテンツモデレーションの大幅な進歩にもかかわらず、大きな言語モデル(LLM)とテキスト・トゥ・イメージ(T2I)システムは、ジェイルブレイクとして知られるプロンプトベースの攻撃に弱いままである。
専門知識を必要とする伝統的な敵の例とは異なり、今日のジェイルブレイクの多くは、巧妙な言葉で書かれたプロンプトだけで、日々のユーザーによって作られた、低便でインパクトの高いものである。
本稿では,マルチターン物語エスカレーション,語彙的カモフラージュ,含意連鎖,架空の偽装,微妙な意味的編集などを通じて,非専門家がいかにして安全メカニズムを確実に回避できるかをシステムスタイルで検討する。
本稿では,テキスト出力モデルとT2Iモデルの両方にまたがるアクシデントレベルのジェイルブレイク戦略の統一分類法を提案する。
解析の結果,入力フィルタリングから出力検証まで,モデレーションパイプラインの各段階は,アクセス可能な戦略でバイパス可能であることがわかった。
我々は、これらのジェイルブレイクが現実の環境で再現される容易さを反映した、コンテキスト対応の防衛に対する緊急の必要性を強調して、結論付けた。
関連論文リスト
- InfoFlood: Jailbreaking Large Language Models with Information Overload [16.626185161464164]
過度の言語的複雑さが組込み安全性メカニズムを阻害する新たな脆弱性を同定する。
我々は、悪意のあるクエリを複雑な情報過剰なクエリに変換するジェイルブレイク攻撃であるInfoFloodを提案する。
広く使用されている4つのLLM-GPT-4o, GPT-3.5-turbo, Gemini 2.0, LLaMA 3.1に対するInfoFloodの有効性を実証的に検証した。
論文 参考訳(メタデータ) (2025-06-13T23:03:11Z) - Rewrite to Jailbreak: Discover Learnable and Transferable Implicit Harmfulness Instruction [32.49886313949869]
大規模言語モデル(LLM)を攻撃するための移動可能なブラックボックスジェイルブレイク法を提案する。
この書き換えアプローチは学習可能で、転送可能であることが分かりました。
大規模な実験と分析により、R2Jの有効性が示された。
論文 参考訳(メタデータ) (2025-02-16T11:43:39Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - Fuzz-Testing Meets LLM-Based Agents: An Automated and Efficient Framework for Jailbreaking Text-To-Image Generation Models [15.582860145268553]
JailFuzzerは、大きな言語モデル(LLM)エージェントによって駆動される新しいファジングフレームワークである。
自然かつ意味的に一貫性のあるプロンプトを生成し、従来の防御による検出の可能性を減らす。
クエリオーバーヘッドを最小限に抑えたジェイルブレイク攻撃で高い成功率を達成する。
論文 参考訳(メタデータ) (2024-08-01T12:54:46Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。