論文の概要: Jailbreaking Large Language Models Through Content Concretization
- arxiv url: http://arxiv.org/abs/2509.12937v1
- Date: Tue, 16 Sep 2025 10:34:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.037299
- Title: Jailbreaking Large Language Models Through Content Concretization
- Title(参考訳): コンテンツ拡張による大規模言語モデルのジェイルブレーク
- Authors: Johan Wahréus, Ahmed Hussain, Panos Papadimitratos,
- Abstract要約: 大きな言語モデル(LLM)は、タスクの自動化とコンテンツ生成のためにますます多くデプロイされている。
本稿では,抽象的な悪意ある要求を具体的かつ実行可能な実装に変換する新しいジェイルブレイク技術であるtextitContent Concretization (CC)を紹介する。
- 参考スコア(独自算出の注目度): 1.5599296461516985
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed for task automation and content generation, yet their safety mechanisms remain vulnerable to circumvention through different jailbreaking techniques. In this paper, we introduce \textit{Content Concretization} (CC), a novel jailbreaking technique that iteratively transforms abstract malicious requests into concrete, executable implementations. CC is a two-stage process: first, generating initial LLM responses using lower-tier, less constrained safety filters models, then refining them through higher-tier models that process both the preliminary output and original prompt. We evaluate our technique using 350 cybersecurity-specific prompts, demonstrating substantial improvements in jailbreak Success Rates (SRs), increasing from 7\% (no refinements) to 62\% after three refinement iterations, while maintaining a cost of 7.5\textcent~per prompt. Comparative A/B testing across nine different LLM evaluators confirms that outputs from additional refinement steps are consistently rated as more malicious and technically superior. Moreover, manual code analysis reveals that generated outputs execute with minimal modification, although optimal deployment typically requires target-specific fine-tuning. With eventual improved harmful code generation, these results highlight critical vulnerabilities in current LLM safety frameworks.
- Abstract(参考訳): 大きな言語モデル(LLM)は、タスク自動化とコンテンツ生成のためにますますデプロイされているが、その安全性メカニズムは、異なるジェイルブレイク技術による回避に弱いままである。
本稿では,抽象的な悪意ある要求を具体的かつ実行可能な実装に反復的に変換する,新しいジェイルブレイク手法である‘textit{Content Concretization} (CC) を紹介する。
CC は2段階のプロセスである: まず、低層で制約の少ない安全フィルタモデルを使用して初期 LLM 応答を生成し、その後、予備出力と元のプロンプトの両方を処理する高層モデルを通してそれらを精錬する。
我々は350のサイバーセキュリティ特異的プロンプトを用いて評価を行い、ジェイルブレイク成功率(SR)を大幅に改善し、3回のリファインメントイテレーションの後に7\%(改善なし)から62\%に増加し、7.5\textcent〜perプロンプトのコストを維持した。
9つの異なるLCM評価器間の比較A/Bテストでは、追加の精錬工程からの出力がより悪質で技術的に優れていると一貫して評価されていることが確認されている。
さらに、手動のコード解析では、生成した出力は最小限の変更で実行されるが、最適なデプロイメントは通常ターゲット固有の微調整を必要とする。
最終的に有害なコード生成が改善されたことにより、これらの結果は現在のLLMセーフティフレームワークにおける重大な脆弱性を浮き彫りにする。
関連論文リスト
- Recursive language models for jailbreak detection: a procedural defense for tool-augmented agents [0.0]
Recursive Language Models (RLM) に基づくエンドツーエンドのジェイルブレイク検出フレームワーク RLM-JB を提案する。
RLM-JBは、検出をワンショット分類ではなく手順として扱う。
AutoDANスタイルの逆入力では、RLM-JBは3つのLLMバックエンド間で高い検出効率を実現する。
論文 参考訳(メタデータ) (2026-02-18T15:07:09Z) - Large Language Lobotomy: Jailbreaking Mixture-of-Experts via Expert Silencing [14.891975420982504]
トレーニング不要でアーキテクチャに依存しない攻撃であるLarge Language Lobotomy (L$3$)を提案する。
L$3$は、拒絶と相関するルーティングパターンを学び、特定の専門家に安全行動の属性を与え、有害なアウトプットが生成されるまで、最も安全に関連する専門家を適応的に沈黙させる。
我々は8つの最先端オープンソースMoE LLMに対して3ドルの評価を行い、アダプティブエキスパートサイレンシングが平均攻撃成功率を7.3%から70.4%に引き上げ、86.3%まで向上し、事前トレーニングなしの成績を上回ったことを示す。
論文 参考訳(メタデータ) (2026-02-09T14:42:11Z) - Improving LLM-Assisted Secure Code Generation through Retrieval-Augmented-Generation and Multi-Tool Feedback [1.1017250479834206]
大きな言語モデル(LLM)はコードを生成することができるが、セキュリティ上の脆弱性、論理的不整合、コンパイルエラーをしばしば導入する。
本稿では,1つのコード生成LLMが反復的に出力を洗練する検索拡張型マルチツール修復ワークフローを提案する。
論文 参考訳(メタデータ) (2026-01-01T23:34:00Z) - The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs [39.85609149662187]
DLLMのユニークな安全性の弱点を生かした、最初の系統的な研究および脱獄攻撃フレームワークであるDIJAを提案する。
提案するDIJAは,dLLMのテキスト生成機構を利用した対向的インターリーブ・マスクテキストプロンプトを構築する。
本研究は, 新たな言語モデルにおいて, 安全アライメントの再考の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-07-15T08:44:46Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [64.32925552574115]
ARMORは、jailbreak戦略を分析し、コアインテントを抽出する、大規模な言語モデルである。
ARMORは最先端の安全性能を達成し、平均有害率は0.002であり、高度な最適化ベースのジェイルブレイクに対する攻撃成功率は0.06である。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - Prefill-level Jailbreak: A Black-Box Risk Analysis of Large Language Models [6.049325292667881]
本報告では,プリフィルレベルジェイルブレイク攻撃のブラックボックスセキュリティ解析について述べる。
実験の結果,いくつかのモデルでは適応手法が99%を超え,プレフィルレベル攻撃が高い成功率を達成することが示された。
その結果,プロンプトとプリフィルの操作関係に着目した検出法がより効果的であることが判明した。
論文 参考訳(メタデータ) (2025-04-28T07:38:43Z) - AutoAdv: Automated Adversarial Prompting for Multi-Turn Jailbreaking of Large Language Models [0.0]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃の脆弱性を示し続けている。
本稿では,敵対的即時生成を自動化する新しいフレームワークであるAutoAdvを紹介する。
我々の攻撃は、有害なコンテンツ生成に対して最大86%のジェイルブレイク成功率を達成したことを示す。
論文 参考訳(メタデータ) (2025-04-18T08:38:56Z) - FlexiGPT: Pruning and Extending Large Language Models with Low-Rank Weight Sharing [59.12511498024836]
本稿では,重み付けスコアに基づいてモデルブロックを選択的にプルーする大規模言語モデル(LLM)をプルーする手法を提案する。
重み共有機構を用いて各刈り込みブロックを置換する原理的計量を提案する。
経験的評価は、既存の方法よりも大幅にパフォーマンスが向上したことを示している。
論文 参考訳(メタデータ) (2025-01-24T18:46:37Z) - Model-Editing-Based Jailbreak against Safety-aligned Large Language Models [13.887770576598646]
大規模言語モデル(LLM)は、先進的な自然言語相互作用を実現することによって、多くの分野を変革してきた。
本稿では,安全フィルタをバイパスする新しいホワイトボックス手法であるターゲットモデル編集(TME)を提案する。
TMEはモデル行列に埋め込まれた安全クリティカルトランスフォーメーション(SCT)を特定し、削除し、悪意のあるクエリが制限をバイパスできるようにする。
論文 参考訳(メタデータ) (2024-12-11T08:44:15Z) - ADVLLM: Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - h4rm3l: A language for Composable Jailbreak Attack Synthesis [48.5611060845958]
h4rm3lは、人間が読めるドメイン固有言語とのギャップに対処する新しいアプローチである。
我々は、h4rm3lの合成攻撃は、文献における既存のジェイルブレイク攻撃よりも多様で、より成功していることを示す。
論文 参考訳(メタデータ) (2024-08-09T01:45:39Z) - Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。
まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。
本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-19T16:09:58Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。