論文の概要: CCFC: Core & Core-Full-Core Dual-Track Defense for LLM Jailbreak Protection
- arxiv url: http://arxiv.org/abs/2508.14128v1
- Date: Tue, 19 Aug 2025 04:17:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.211074
- Title: CCFC: Core & Core-Full-Core Dual-Track Defense for LLM Jailbreak Protection
- Title(参考訳): CCFC:LLM脱獄防止のためのコアコアとコアコアデュアルトラックディフェンス
- Authors: Jiaming Hu, Haoyu Wang, Debarghya Mukherjee, Ioannis Ch. Paschalidis,
- Abstract要約: 大規模言語モデル(LLM)の安全なデプロイには、脱獄攻撃が深刻な課題になる
CCFC(Core & Core-Full-Core)は、デュアルトラックでプロンプトレベルの防御フレームワークである。
我々は,CCFCが攻撃成功率を50-75%削減し,最先端の防衛効果を低下させることを実証した。
- 参考スコア(独自算出の注目度): 16.339655703671596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Jailbreak attacks pose a serious challenge to the safe deployment of large language models (LLMs). We introduce CCFC (Core & Core-Full-Core), a dual-track, prompt-level defense framework designed to mitigate LLMs' vulnerabilities from prompt injection and structure-aware jailbreak attacks. CCFC operates by first isolating the semantic core of a user query via few-shot prompting, and then evaluating the query using two complementary tracks: a core-only track to ignore adversarial distractions (e.g., toxic suffixes or prefix injections), and a core-full-core (CFC) track to disrupt the structural patterns exploited by gradient-based or edit-based attacks. The final response is selected based on a safety consistency check across both tracks, ensuring robustness without compromising on response quality. We demonstrate that CCFC cuts attack success rates by 50-75% versus state-of-the-art defenses against strong adversaries (e.g., DeepInception, GCG), without sacrificing fidelity on benign queries. Our method consistently outperforms state-of-the-art prompt-level defenses, offering a practical and effective solution for safer LLM deployment.
- Abstract(参考訳): 大規模な言語モデル(LLM)の安全なデプロイには、ジェイルブレイク攻撃が深刻な課題となる。
CCFC(Core & Core-Full-Core)は,LDMの脆弱性を即時注入や構造対応のジェイルブレイク攻撃から軽減するために設計された,デュアルトラックでプロンプトレベルの防御フレームワークである。
CCFCはまず、ユーザクエリのセマンティックコアを数発のプロンプトで分離し、次に2つの補完トラック(例えば、有害なサフィックスやプレフィックスインジェクションを無視するコアオンリートラック)とコアフルコア(CFC)トラックを使用してクエリを評価して、勾配ベースの攻撃や編集ベースの攻撃によって悪用される構造パターンを妨害する。
最終応答は、両方のトラックにわたる安全性の整合性チェックに基づいて選択され、応答品質を損なうことなく堅牢性を確保する。
我々は,CCFCが強敵(例えばDeepInception, GCG)に対する攻撃成功率を50-75%削減することを示した。
提案手法は,より安全なLSM配置のための実用的で効果的なソリューションとして,最先端のプロンプトレベルの防御を一貫して上回っている。
関連論文リスト
- ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [49.47193675702453]
大規模言語モデル(LLM)は、顕著な生成能力を示している。
LLMは、安全上の制約を回避できる悪意のある命令に弱いままである。
推論に基づく安全アライメントフレームワークARMORを提案する。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - Tit-for-Tat: Safeguarding Large Vision-Language Models Against Jailbreak Attacks via Adversarial Defense [90.71884758066042]
大きな視覚言語モデル(LVLM)は、視覚入力による悪意のある攻撃に対する感受性という、ユニークな脆弱性を導入している。
本稿では,脆弱性発生源からアクティブ防衛機構へ視覚空間を変換するための新しい手法であるESIIIを提案する。
論文 参考訳(メタデータ) (2025-03-14T17:39:45Z) - Gandalf the Red: Adaptive Security for LLMs [2.9422902813085665]
大規模言語モデル(LLM)アプリケーションにおける即時攻撃に対する防衛の現在の評価は、敵の行動の動的性質と、制限された防御によって正統なユーザに対して課されるユーザビリティの罰の2つの重要な要素を見落としている。
攻撃者を正当なユーザから明確に分離し、マルチステップインタラクションをモデル化し、最適化可能な形式でセキュリティユーティリティを表現するD-SECを提案する。
論文 参考訳(メタデータ) (2025-01-14T08:30:49Z) - HSF: Defending against Jailbreak Attacks with Hidden State Filtering [14.031010511732008]
隠れ状態フィルタ(HSF)に基づくジェイルブレイク攻撃防御戦略を提案する。
HSFは、推論プロセスが始まる前に、モデルが相手の入力をプリエンプティブに識別し、拒否することを可能にする。
不正なユーザクエリに対する応答を最小限に抑えながら、Jailbreak攻撃の成功率を大幅に低下させる。
論文 参考訳(メタデータ) (2024-08-31T06:50:07Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - Towards Universal and Black-Box Query-Response Only Attack on LLMs with QROA [2.4578723416255754]
悪意ある命令に付加された相手の接尾辞を識別するブラックボックスジェイルブレイク手法であるQROAを紹介する。
既存のサフィックスベースのjailbreakアプローチとは異なり、QROAはモデルのロジットや他の内部情報へのアクセスを必要としない。
また,QROA-UNVは,個々のモデルに対する普遍的対角接尾辞を識別する拡張である。
論文 参考訳(メタデータ) (2024-06-04T07:27:36Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。