論文の概要: Defending Large Language Models Against Jailbreak Exploits with Responsible AI Considerations
- arxiv url: http://arxiv.org/abs/2511.18933v1
- Date: Mon, 24 Nov 2025 09:38:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.140606
- Title: Defending Large Language Models Against Jailbreak Exploits with Responsible AI Considerations
- Title(参考訳): 責任あるAIを考慮した大規模言語モデルの脱獄対策
- Authors: Ryan Wong, Hosea David Yu Fei Ng, Dhananjai Sharma, Glenn Jun Jie Ng, Kavishvaran Srinivasan,
- Abstract要約: 大きな言語モデル(LLM)は、安全フィルタを回避し、有害または非倫理的な振る舞いを誘発するジェイルブレイクの悪用に影響を受けやすいままである。
この研究は、即時レベル、モデルレベル、トレーニングタイムの介入にまたがって、既存のジェイルブレイク防御の体系的な分類を提示している。
- 参考スコア(独自算出の注目度): 0.9732319879728966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) remain susceptible to jailbreak exploits that bypass safety filters and induce harmful or unethical behavior. This work presents a systematic taxonomy of existing jailbreak defenses across prompt-level, model-level, and training-time interventions, followed by three proposed defense strategies. First, a Prompt-Level Defense Framework detects and neutralizes adversarial inputs through sanitization, paraphrasing, and adaptive system guarding. Second, a Logit-Based Steering Defense reinforces refusal behavior through inference-time vector steering in safety-sensitive layers. Third, a Domain-Specific Agent Defense employs the MetaGPT framework to enforce structured, role-based collaboration and domain adherence. Experiments on benchmark datasets show substantial reductions in attack success rate, achieving full mitigation under the agent-based defense. Overall, this study highlights how jailbreaks pose a significant security threat to LLMs and identifies key intervention points for prevention, while noting that defense strategies often involve trade-offs between safety, performance, and scalability. Code is available at: https://github.com/Kuro0911/CS5446-Project
- Abstract(参考訳): 大きな言語モデル(LLM)は、安全フィルタを回避し、有害または非倫理的な振る舞いを誘発するジェイルブレイクの悪用に影響を受けやすいままである。
本研究は, 即時, モデルレベル, 訓練時間の介入にまたがって, 既存のジェイルブレイク防御の体系的な分類を示し, 続いて3つの防衛戦略を提案する。
第一に、Prompt-Level Defense Frameworkは、衛生化、パラフレーズ化、適応システムガードを通じて敵の入力を検出し、中和する。
第二に、ロジットベースのステアリングディフェンスは、安全に敏感な層における推論時ベクトルステアリングを通じて拒絶行動を補強する。
第3に、ドメイン特化エージェント防衛(Domain-Specific Agent Defense)はMetaGPTフレームワークを使用して、構造化されたロールベースのコラボレーションとドメインの遵守を強制する。
ベンチマークデータセットの実験では、攻撃成功率が大幅に低下し、エージェントベースの防御下で完全な緩和が達成された。
全体として、この研究は、ジェイルブレイクがLLMに重大なセキュリティ上の脅威をもたらし、予防のための重要な介入ポイントを特定する一方で、防衛戦略が安全、パフォーマンス、スケーラビリティのトレードオフを伴うことが多いことを強調している。
コードは、https://github.com/Kuro0911/CS5446-Projectで入手できる。
関連論文リスト
- Retrieval-Augmented Defense: Adaptive and Controllable Jailbreak Prevention for Large Language Models [27.23138831535272]
本稿では,ジェイルブレイク検出のための新しいフレームワークであるRetrieval-Augmented Defense (RAD)を提案する。
RADは既知の攻撃例のデータベースをRetrieval-Augmented Generationに組み込んでいる。
StrongREJECTの実験では、RADは強いジェイルブレイク攻撃の有効性を大幅に低下させることが示された。
論文 参考訳(メタデータ) (2025-08-22T14:13:16Z) - Beyond Surface-Level Detection: Towards Cognitive-Driven Defense Against Jailbreak Attacks via Meta-Operations Reasoning [12.2605782566148]
大規模な言語モデルをジェイルブレイク攻撃から守ることは、安全で信頼性の高いデプロイメントに不可欠である。
本稿では,メタオペレーションを適用することでジェイルブレイクプロンプトの基盤となる構造を目標とする認知駆動型防衛フレームワークを提案する。
実験により、CDDは最先端の防御性能を達成でき、目に見えないジェイルブレイク攻撃に対する強力な一般化を示すことが示された。
論文 参考訳(メタデータ) (2025-08-05T03:58:15Z) - Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - DETAM: Defending LLMs Against Jailbreak Attacks via Targeted Attention Modification [18.006622965818856]
我々は,LDMのジェイルブレイク攻撃に対する防御能力を向上する,微調整不要な防御手法であるDETAMを紹介する。
具体的には,ジェイルブレイク攻撃に敏感なアテンションヘッドを識別するために,防衛の成功と失敗の間のアテンションスコアの差を分析した。
推論中、攻撃トークンからの干渉を最小限に抑え、ユーザーの中核的な意図を強調するために注意を向ける。
論文 参考訳(メタデータ) (2025-04-18T09:02:12Z) - Latent-space adversarial training with post-aware calibration for defending large language models against jailbreak attacks [23.793583584784685]
大規模言語モデル(LLM)は、システム脆弱性を利用して安全対策を回避し、有害または不適切な出力を誘発するジェイルブレイク攻撃の影響を受ける。
LATPC(Latent-space Adrial Training with Post-aware framework)を紹介する。
LATPCは有害な入力と良性入力を対比することにより安全性に重要な潜伏次元を同定し、ターゲットの拒絶特徴除去攻撃を適応的に構築する。
論文 参考訳(メタデータ) (2025-01-18T02:57:12Z) - The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
Vision Large Language Models(VLLMs)のジェイルブレイク攻撃に対する脆弱性は、驚くにあたらない。
これらの攻撃に対する最近の防御機構は、ベンチマーク評価においてほぼ飽和状態に達している。
論文 参考訳(メタデータ) (2024-11-13T07:57:19Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。