論文の概要: Beyond Surface-Level Detection: Towards Cognitive-Driven Defense Against Jailbreak Attacks via Meta-Operations Reasoning
- arxiv url: http://arxiv.org/abs/2508.03054v1
- Date: Tue, 05 Aug 2025 03:58:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.766912
- Title: Beyond Surface-Level Detection: Towards Cognitive-Driven Defense Against Jailbreak Attacks via Meta-Operations Reasoning
- Title(参考訳): 表面レベル検出を超えて:メタ操作推論によるジェイルブレイク攻撃に対する認知的防御を目指して
- Authors: Rui Pu, Chaozhuo Li, Rui Ha, Litian Zhang, Lirong Qiu, Xi Zhang,
- Abstract要約: 大規模な言語モデルをジェイルブレイク攻撃から守ることは、安全で信頼性の高いデプロイメントに不可欠である。
本稿では,メタオペレーションを適用することでジェイルブレイクプロンプトの基盤となる構造を目標とする認知駆動型防衛フレームワークを提案する。
実験により、CDDは最先端の防御性能を達成でき、目に見えないジェイルブレイク攻撃に対する強力な一般化を示すことが示された。
- 参考スコア(独自算出の注目度): 12.2605782566148
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Defending large language models (LLMs) against jailbreak attacks is essential for their safe and reliable deployment. Existing defenses often rely on shallow pattern matching, which struggles to generalize to novel and unseen attack strategies. To address this challenge, we propose the Cognitive-Driven Defense (CDD) framework, which targets the underlying structure of jailbreak prompts by applying meta-operations, defined as basic manipulations that conceal harmful intent.CDD emulates human cognitive reasoning through a structured reasoning chain. It begins with a global perception of the prompt and follows with a localized analysis to uncover hidden manipulations. By applying supervised fine-tuning on this structured chain, the model learns to identify and reason about known manipulation patterns. To enhance generalization to unseen threats, an entropy-guided reinforcement learning algorithm (EG-GRPO) is introduced to encourage exploration of new types and variants of meta-operations. Experiments demonstrate that CDD can achieve state-of-the-art defense performance and exhibit strong generalization to unseen jailbreak attacks.
- Abstract(参考訳): 大規模な言語モデル(LLM)をジェイルブレイク攻撃から守ることは、安全で信頼性の高いデプロイメントに不可欠である。
既存の防御は、しばしば浅いパターンマッチングに依存しており、新規で目に見えない攻撃戦略への一般化に苦慮している。
この課題に対処するため、我々は、有害な意図を隠蔽する基本的な操作として定義されたメタオペレーションを適用し、ジェイルブレイクプロンプトの基盤構造をターゲットにした認知駆動防御(CDD)フレームワークを提案し、構造化された推論連鎖を通して人間の認知的推論をエミュレートする。
これは、プロンプトのグローバルな認識から始まり、隠れた操作を明らかにするための局所分析で続く。
この構造的連鎖に教師付き微調整を適用することで、モデルは既知の操作パターンを特定し、推論することを学ぶ。
エントロピー誘導強化学習アルゴリズム (EG-GRPO) を導入し, メタオペレーションの新たなタイプや変種を探索する。
実験により、CDDは最先端の防御性能を達成でき、目に見えないジェイルブレイク攻撃に対する強力な一般化を示すことが示された。
関連論文リスト
- Rethinking Jailbreak Detection of Large Vision Language Models with Representational Contrastive Scoring [13.497048408038935]
LVLM(Large Vision-Language Models)は、増え続けるマルチモーダル・ジェイルブレイク攻撃に対して脆弱である。
現在の異常検出法は、新しい良性入力を悪意のある入力と混同する傾向があり、信頼性の低いオーバーリジェクションにつながる。
我々は,LVLMの内部表現に最も強力な安全信号が存在するという,重要な洞察に基づくフレームワークであるRepresentational Contrastive Scoring (RCS)を提案する。
論文 参考訳(メタデータ) (2025-12-12T22:31:38Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - Defending Large Language Models Against Jailbreak Exploits with Responsible AI Considerations [0.9732319879728966]
大きな言語モデル(LLM)は、安全フィルタを回避し、有害または非倫理的な振る舞いを誘発するジェイルブレイクの悪用に影響を受けやすいままである。
この研究は、即時レベル、モデルレベル、トレーニングタイムの介入にまたがって、既存のジェイルブレイク防御の体系的な分類を提示している。
論文 参考訳(メタデータ) (2025-11-24T09:38:11Z) - KG-DF: A Black-box Defense Framework against Jailbreak Attacks Based on Knowledge Graphs [22.335638814557004]
大規模言語モデル(LLM)のための知識グラフ防衛フレームワーク(KG-DF)を提案する。
構造化された知識表現とセマンティックアソシエーション機能により、知識ベースで安全な知識と入力コンテンツを関連付けることで、知識グラフ(KG)を検索することができる。
セマンティック解析モジュールを導入し、その中核となるタスクは、入力クエリを構造化された安全な概念表現の集合に変換することである。
論文 参考訳(メタデータ) (2025-11-09T14:39:40Z) - Guarding the Guardrails: A Taxonomy-Driven Approach to Jailbreak Detection [1.8374319565577155]
脱獄技術は、大規模言語モデルの安全性に重大な脅威をもたらす。
ジェイルブレイク技術の有効性の理解を深めるために,構造化されたレッドチームチャレンジを実施した。
我々は、50のジェイルブレイク戦略の包括的な階層的な分類法を開発し、以前の分類を7つの広い家族に集約し拡張した。
論文 参考訳(メタデータ) (2025-10-14T12:34:41Z) - Alignment Under Pressure: The Case for Informed Adversaries When Evaluating LLM Defenses [6.736255552371404]
アライメント(Alignment)は、迅速な注射や脱獄といった攻撃を防御するために使われる主要なアプローチの1つである。
グレディ・コーディネート・グラディエント(GCG)に対する攻撃成功率(ASR)の報告
論文 参考訳(メタデータ) (2025-05-21T16:43:17Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - ShieldLearner: A New Paradigm for Jailbreak Attack Defense in LLMs [4.534938642552179]
ShieldLearnerは、防衛における人間の学習を模倣する新しいパラダイムである。
試行錯誤によって、アタックシグネチャを自動でパターンアトラスに蒸留する。
Adaptive Adversarial Augmentationは、防御されたプロンプトの逆のバリエーションを生成する。
論文 参考訳(メタデータ) (2025-02-16T18:47:41Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Jailbreaking? One Step Is Enough! [6.142918017301964]
大規模言語モデル(LLM)は様々なタスクで優れるが、敵が有害な出力を生成するプロンプトを操作するジェイルブレイク攻撃に弱いままである。
本稿では,攻撃意図を「防御」意図と偽装するリバース・エンベッドド・ディフェンス・アタック(REDA)機構を提案する。
モデルの「防御的」意図における信頼性とガイダンスを高めるため、少数の攻撃例を含む文脈内学習(ICL)を採用する。
論文 参考訳(メタデータ) (2024-12-17T07:33:41Z) - Jailbreak Attacks and Defenses Against Large Language Models: A Survey [22.392989536664288]
大規模言語モデル(LLM)は、様々なテキスト生成タスクにおいて例外的に機能している。
ジェイルブレイク」は、利用方針や社会に対する悪意ある反応をモデルに誘導する。
本稿では,ジェイルブレイク攻撃と防衛方法の包括的かつ詳細な分類法を提案する。
論文 参考訳(メタデータ) (2024-07-05T06:57:30Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Jailbroken: How Does LLM Safety Training Fail? [92.8748773632051]
ChatGPTの初期リリースに対する"jailbreak"攻撃は、望ましくない振る舞いを引き起こす。
このような攻撃がなぜ成功し、どのように発生できるかを考察する。
障害モードを利用した新たな攻撃は、安全でない要求の収集において、すべてのプロンプトで成功します。
論文 参考訳(メタデータ) (2023-07-05T17:58:10Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。