論文の概要: BreakFun: Jailbreaking LLMs via Schema Exploitation
- arxiv url: http://arxiv.org/abs/2510.17904v1
- Date: Sun, 19 Oct 2025 11:27:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.336098
- Title: BreakFun: Jailbreaking LLMs via Schema Exploitation
- Title(参考訳): BreakFun: スキーマ・エクスプロイテーションによるLLMの脱獄
- Authors: Amirkia Rafiei Oskooei, Mehmet S. Aktas,
- Abstract要約: 我々は,Large Language Models (LLM) がいかにして重大な弱点となるかを検討する。
この脆弱性は転送可能であり、13モデルの平均成功率は89%に達する。
二次 LLM は、ユーザの真の有害な意図を分離し、明らかにするために "Literal Transcription" を実行する。
- 参考スコア(独自算出の注目度): 0.28647133890966986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proficiency of Large Language Models (LLMs) in processing structured data and adhering to syntactic rules is a capability that drives their widespread adoption but also makes them paradoxically vulnerable. In this paper, we investigate this vulnerability through BreakFun, a jailbreak methodology that weaponizes an LLM's adherence to structured schemas. BreakFun employs a three-part prompt that combines an innocent framing and a Chain-of-Thought distraction with a core "Trojan Schema"--a carefully crafted data structure that compels the model to generate harmful content, exploiting the LLM's strong tendency to follow structures and schemas. We demonstrate this vulnerability is highly transferable, achieving an average success rate of 89% across 13 foundational and proprietary models on JailbreakBench, and reaching a 100% Attack Success Rate (ASR) on several prominent models. A rigorous ablation study confirms this Trojan Schema is the attack's primary causal factor. To counter this, we introduce the Adversarial Prompt Deconstruction guardrail, a defense that utilizes a secondary LLM to perform a "Literal Transcription"--extracting all human-readable text to isolate and reveal the user's true harmful intent. Our proof-of-concept guardrail demonstrates high efficacy against the attack, validating that targeting the deceptive schema is a viable mitigation strategy. Our work provides a look into how an LLM's core strengths can be turned into critical weaknesses, offering a fresh perspective for building more robustly aligned models.
- Abstract(参考訳): 構造化データ処理や構文規則の遵守におけるLLM(Large Language Models)の習熟度は、広く採用されているが、パラドックス的に脆弱な能力である。
本稿では,この脆弱性を,構造化スキーマへのLLMの順守を武器とする脱獄手法であるBreakFunを用いて調査する。
breakFunは、無意味なフレーミングとチェーンオブソート(Chain-of-Thought)の混乱をコアの"トロイジャンスキーマ(Trojan Schema)"と組み合わせた3つの部分のプロンプトを採用している。これは、有害なコンテンツを生成するためのモデルを慎重に構築したデータ構造で、LLMの強い傾向を利用して構造とスキーマに従う。我々は、この脆弱性を高い転送性で証明し、13の基盤的およびプロプライエタリなモデルに対して平均89%の成功率を達成し、いくつかの著名なモデル上で100%の攻撃成功率(ASR)に達した。厳密なアブレーション調査は、トロイジャンスキーマが攻撃の主要な因果関係であることを確認した。これに対抗して、LLMの二次的な防御機能であるディストラテリジェント(Adversarial Protstruction Deconstruction)を導入する。
我々の概念実証ガードレールは攻撃に対する高い有効性を示し、偽りのスキーマを標的にすることが、有効な緩和戦略であることを示す。
私たちの研究は、LLMのコアの強みを重大な弱点にする方法を示し、より堅牢に整合したモデルを構築するための新たな視点を提供します。
関連論文リスト
- Formalization Driven LLM Prompt Jailbreaking via Reinforcement Learning [48.100552417137656]
PASSは、初期のジェイルブレイクプロンプトを形式化された記述に変換するために強化学習を使用している。
我々は、共通のオープンソースモデルに関する広範な実験を行い、攻撃の有効性を実証した。
論文 参考訳(メタデータ) (2025-09-28T01:38:00Z) - PRISM: Programmatic Reasoning with Image Sequence Manipulation for LVLM Jailbreaking [3.718606661938873]
本稿では、ソフトウェアセキュリティからROP(Return-Oriented Programming)技術にインスパイアされた、新しい効果的なジェイルブレイクフレームワークを提案する。
提案手法では,有害な指示を視覚ガジェットの系列に分解する。
以上の結果から,LVLMの構成的推論能力を利用した,重要かつ過小評価された脆弱性が判明した。
論文 参考訳(メタデータ) (2025-07-29T07:13:56Z) - Paper Summary Attack: Jailbreaking LLMs through LLM Safety Papers [61.57691030102618]
我々は新しいジェイルブレイク手法であるペーパー・サプリメント・アタック(llmnamePSA)を提案する。
攻撃に焦点をあてたLLM安全紙からコンテンツを合成し、敵のプロンプトテンプレートを構築する。
実験では、ベースLLMだけでなく、Deepseek-R1のような最先端の推論モデルにも重大な脆弱性がある。
論文 参考訳(メタデータ) (2025-07-17T18:33:50Z) - Exploring the Vulnerability of the Content Moderation Guardrail in Large Language Models via Intent Manipulation [29.8288014123234]
本研究では,意図認識型ガードレールの脆弱性を調査し,大規模言語モデルが暗黙の意図検出能力を示すことを示す。
IntentPromptという2段階のインテントベースのプロンプトリファインメントフレームワークを提案し、まず有害な問い合わせを構造化されたアウトラインに変換し、さらに宣言的なスタイルの物語に再構成する。
われわれのフレームワークは、最先端のジェイルブレイク手法を一貫して上回り、さらに高度なIntent Analysis(IA)とChain-of-Thought(CoT)ベースの防御を回避している。
論文 参考訳(メタデータ) (2025-05-24T06:47:32Z) - GraphAttack: Exploiting Representational Blindspots in LLM Safety Mechanisms [1.48325651280105]
本稿では,jailbreakプロンプトを生成する新しいグラフベースのアプローチを提案する。
我々は、異なる変換を示すエッジを持つグラフ構造において、悪意のあるプロンプトをノードとして表現する。
目的を実現するコードを生成するために LLM を指示することで,特に効果的なエクスプロイトベクトルを実証する。
論文 参考訳(メタデータ) (2025-04-17T16:09:12Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - DrAttack: Prompt Decomposition and Reconstruction Makes Powerful LLM Jailbreakers [74.7446827091938]
我々はjailbreak textbfAttack (DrAttack) のための自動プロンプト textbfDecomposition と textbfReconstruction フレームワークを導入する。
DrAttack には3つの重要な要素が含まれている: (a) プロンプトをサブプロンプトに分解する; (b) セマンティックに類似しているが無害な再組み立てデモで暗黙的にこれらのサブプロンプトを再構築する; (c) サブプロンプトのシンノニム検索する; サブプロンプトのシノニムを見つけることを目的としたサブプロンプトのシノニムを見つけること。
論文 参考訳(メタデータ) (2024-02-25T17:43:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。