論文の概要: Jailbreaking Large Language Models Through Content Concretization
- arxiv url: http://arxiv.org/abs/2509.12937v1
- Date: Tue, 16 Sep 2025 10:34:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.037299
- Title: Jailbreaking Large Language Models Through Content Concretization
- Title(参考訳): コンテンツ拡張による大規模言語モデルのジェイルブレーク
- Authors: Johan Wahréus, Ahmed Hussain, Panos Papadimitratos,
- Abstract要約: 大きな言語モデル(LLM)は、タスクの自動化とコンテンツ生成のためにますます多くデプロイされている。
本稿では,抽象的な悪意ある要求を具体的かつ実行可能な実装に変換する新しいジェイルブレイク技術であるtextitContent Concretization (CC)を紹介する。
- 参考スコア(独自算出の注目度): 1.5599296461516985
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed for task automation and content generation, yet their safety mechanisms remain vulnerable to circumvention through different jailbreaking techniques. In this paper, we introduce \textit{Content Concretization} (CC), a novel jailbreaking technique that iteratively transforms abstract malicious requests into concrete, executable implementations. CC is a two-stage process: first, generating initial LLM responses using lower-tier, less constrained safety filters models, then refining them through higher-tier models that process both the preliminary output and original prompt. We evaluate our technique using 350 cybersecurity-specific prompts, demonstrating substantial improvements in jailbreak Success Rates (SRs), increasing from 7\% (no refinements) to 62\% after three refinement iterations, while maintaining a cost of 7.5\textcent~per prompt. Comparative A/B testing across nine different LLM evaluators confirms that outputs from additional refinement steps are consistently rated as more malicious and technically superior. Moreover, manual code analysis reveals that generated outputs execute with minimal modification, although optimal deployment typically requires target-specific fine-tuning. With eventual improved harmful code generation, these results highlight critical vulnerabilities in current LLM safety frameworks.
- Abstract(参考訳): 大きな言語モデル(LLM)は、タスク自動化とコンテンツ生成のためにますますデプロイされているが、その安全性メカニズムは、異なるジェイルブレイク技術による回避に弱いままである。
本稿では,抽象的な悪意ある要求を具体的かつ実行可能な実装に反復的に変換する,新しいジェイルブレイク手法である‘textit{Content Concretization} (CC) を紹介する。
CC は2段階のプロセスである: まず、低層で制約の少ない安全フィルタモデルを使用して初期 LLM 応答を生成し、その後、予備出力と元のプロンプトの両方を処理する高層モデルを通してそれらを精錬する。
我々は350のサイバーセキュリティ特異的プロンプトを用いて評価を行い、ジェイルブレイク成功率(SR)を大幅に改善し、3回のリファインメントイテレーションの後に7\%(改善なし)から62\%に増加し、7.5\textcent〜perプロンプトのコストを維持した。
9つの異なるLCM評価器間の比較A/Bテストでは、追加の精錬工程からの出力がより悪質で技術的に優れていると一貫して評価されていることが確認されている。
さらに、手動のコード解析では、生成した出力は最小限の変更で実行されるが、最適なデプロイメントは通常ターゲット固有の微調整を必要とする。
最終的に有害なコード生成が改善されたことにより、これらの結果は現在のLLMセーフティフレームワークにおける重大な脆弱性を浮き彫りにする。
関連論文リスト
- The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs [39.85609149662187]
DLLMのユニークな安全性の弱点を生かした、最初の系統的な研究および脱獄攻撃フレームワークであるDIJAを提案する。
提案するDIJAは,dLLMのテキスト生成機構を利用した対向的インターリーブ・マスクテキストプロンプトを構築する。
本研究は, 新たな言語モデルにおいて, 安全アライメントの再考の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-07-15T08:44:46Z) - Prefill-level Jailbreak: A Black-Box Risk Analysis of Large Language Models [6.049325292667881]
本報告では,プリフィルレベルジェイルブレイク攻撃のブラックボックスセキュリティ解析について述べる。
実験の結果,いくつかのモデルでは適応手法が99%を超え,プレフィルレベル攻撃が高い成功率を達成することが示された。
その結果,プロンプトとプリフィルの操作関係に着目した検出法がより効果的であることが判明した。
論文 参考訳(メタデータ) (2025-04-28T07:38:43Z) - Model-Editing-Based Jailbreak against Safety-aligned Large Language Models [13.887770576598646]
大規模言語モデル(LLM)は、先進的な自然言語相互作用を実現することによって、多くの分野を変革してきた。
本稿では,安全フィルタをバイパスする新しいホワイトボックス手法であるターゲットモデル編集(TME)を提案する。
TMEはモデル行列に埋め込まれた安全クリティカルトランスフォーメーション(SCT)を特定し、削除し、悪意のあるクエリが制限をバイパスできるようにする。
論文 参考訳(メタデータ) (2024-12-11T08:44:15Z) - ADVLLM: Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - h4rm3l: A language for Composable Jailbreak Attack Synthesis [48.5611060845958]
h4rm3lは、人間が読めるドメイン固有言語とのギャップに対処する新しいアプローチである。
我々は、h4rm3lの合成攻撃は、文献における既存のジェイルブレイク攻撃よりも多様で、より成功していることを示す。
論文 参考訳(メタデータ) (2024-08-09T01:45:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。