論文の概要: The Trojan Example: Jailbreaking LLMs through Template Filling and Unsafety Reasoning
- arxiv url: http://arxiv.org/abs/2510.21190v1
- Date: Fri, 24 Oct 2025 06:43:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 06:57:23.387211
- Title: The Trojan Example: Jailbreaking LLMs through Template Filling and Unsafety Reasoning
- Title(参考訳): トロイの木馬の例:テンプレートフィリングと安全でない推論によるLLMの脱獄
- Authors: Mingrui Liu, Sixiao Zhang, Cheng Long, Kwok Yan Lam,
- Abstract要約: TrojFillはブラックボックスのジェイルブレイクで、安全でない命令をテンプレート入力タスクとして再設定する。
我々はTrojFillを、主要な大規模言語モデルにまたがる標準ジェイルブレイクベンチマークで評価する。
生成されたプロンプトは、以前のブラックボックス最適化アプローチと比較して、解釈可能性と転送可能性が改善されている。
- 参考スコア(独自算出の注目度): 47.85771791033142
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have advanced rapidly and now encode extensive world knowledge. Despite safety fine-tuning, however, they remain susceptible to adversarial prompts that elicit harmful content. Existing jailbreak techniques fall into two categories: white-box methods (e.g., gradient-based approaches such as GCG), which require model internals and are infeasible for closed-source APIs, and black-box methods that rely on attacker LLMs to search or mutate prompts but often produce templates that lack explainability and transferability. We introduce TrojFill, a black-box jailbreak that reframes unsafe instruction as a template-filling task. TrojFill embeds obfuscated harmful instructions (e.g., via placeholder substitution or Caesar/Base64 encoding) inside a multi-part template that asks the model to (1) reason why the original instruction is unsafe (unsafety reasoning) and (2) generate a detailed example of the requested text, followed by a sentence-by-sentence analysis. The crucial "example" component acts as a Trojan Horse that contains the target jailbreak content while the surrounding task framing reduces refusal rates. We evaluate TrojFill on standard jailbreak benchmarks across leading LLMs (e.g., ChatGPT, Gemini, DeepSeek, Qwen), showing strong empirical performance (e.g., 100% attack success on Gemini-flash-2.5 and DeepSeek-3.1, and 97% on GPT-4o). Moreover, the generated prompts exhibit improved interpretability and transferability compared with prior black-box optimization approaches. We release our code, sample prompts, and generated outputs to support future red-teaming research.
- Abstract(参考訳): 大規模言語モデル (LLM) は急速に進歩し、現在では広範な世界の知識をコード化している。
しかし、安全の微調整にもかかわらず、有害な内容を引き出す敵のプロンプトに影響を受けやすいままである。
既存のjailbreakテクニックは、モデル内部が必要でクローズドソースAPIでは利用できないホワイトボックスメソッド(GCGのような勾配ベースのアプローチ)と、プロンプトの検索や変更に攻撃的なLCMに依存するブラックボックスメソッドの2つのカテゴリに分類される。
ブラックボックスのジェイルブレイクであるTrojFillを紹介します。
TrojFillは、難読化された有害な命令(プレースホルダー置換やCaesar/Base64エンコーディングなど)をマルチパートテンプレートに埋め込む。
重要な"例"コンポーネントは、ターゲットのジェイルブレイク内容を含むトロイの木馬として機能し、周囲のタスクフレーミングは拒絶率を減少させる。
我々は、主要なLCM(例えば、ChatGPT、Gemini、DeepSeek、Qwen)にわたる標準ジェイルブレイクベンチマークでTrojFillを評価し、強力な経験的パフォーマンス(例えば、Gemini-flash-2.5とDeepSeek-3.1で100%、GPT-4oで97%)を示した。
さらに、生成されたプロンプトは、従来のブラックボックス最適化手法と比較して、解釈可能性と転送性が改善されている。
コード、サンプルプロンプト、そして、将来のレッドチーム研究をサポートするために生成されたアウトプットをリリースします。
関連論文リスト
- Anyone Can Jailbreak: Prompt-Based Attacks on LLMs and T2Is [8.214994509812724]
大規模言語モデル(LLM)とテキスト・トゥ・イメージ(T2I)システムは、ジェイルブレイクとして知られるプロンプトベースの攻撃に対して脆弱である。
本稿では,非専門家が安全メカニズムを確実に回避する方法について,システムスタイルの考察を行う。
本稿では,テキスト出力モデルとT2Iモデルの両方にまたがる,即時レベルのジェイルブレイク戦略の統一分類法を提案する。
論文 参考訳(メタデータ) (2025-07-29T13:55:23Z) - xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - Fuzz-Testing Meets LLM-Based Agents: An Automated and Efficient Framework for Jailbreaking Text-To-Image Generation Models [15.582860145268553]
JailFuzzerは、大きな言語モデル(LLM)エージェントによって駆動される新しいファジングフレームワークである。
自然かつ意味的に一貫性のあるプロンプトを生成し、従来の防御による検出の可能性を減らす。
クエリオーバーヘッドを最小限に抑えたジェイルブレイク攻撃で高い成功率を達成する。
論文 参考訳(メタデータ) (2024-08-01T12:54:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。