論文の概要: A Real-Time, Self-Tuning Moderator Framework for Adversarial Prompt Detection
- arxiv url: http://arxiv.org/abs/2508.07139v1
- Date: Sun, 10 Aug 2025 01:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.722111
- Title: A Real-Time, Self-Tuning Moderator Framework for Adversarial Prompt Detection
- Title(参考訳): 逆プロンプト検出のためのリアルタイム自己調整型モデレータフレームワーク
- Authors: Ivan Zhang,
- Abstract要約: 我々は、軽量なトレーニングフットプリントを維持しながら、敵攻撃を防御するリアルタイム自己チューニング(RTST)モデレータフレームワークを導入する。
われわれは、GoogleのGeminiモデルを使って、近代的で効果的なジェイルブレイクに対して、その効果を実証的に評価する。
- 参考スコア(独自算出の注目度): 0.1813006808606333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring LLM alignment is critical to information security as AI models become increasingly widespread and integrated in society. Unfortunately, many defenses against adversarial attacks and jailbreaking on LLMs cannot adapt quickly to new attacks, degrade model responses to benign prompts, or introduce significant barriers to scalable implementation. To mitigate these challenges, we introduce a real-time, self-tuning (RTST) moderator framework to defend against adversarial attacks while maintaining a lightweight training footprint. We empirically evaluate its effectiveness using Google's Gemini models against modern, effective jailbreaks. Our results demonstrate the advantages of an adaptive, minimally intrusive framework for jailbreak defense over traditional fine-tuning or classifier models.
- Abstract(参考訳): LLMアライメントの確保は、AIモデルが広く普及し、社会に統合されるにつれて、情報セキュリティにとって不可欠である。
残念なことに、LLMに対する敵対的攻撃やジェイルブレイクに対する多くの防御は、新しい攻撃に迅速に適応できず、モデルの応答を良質なプロンプトに格下げしたり、スケーラブルな実装に重大な障壁を導入することはできない。
これらの課題を軽減するために、軽量なトレーニングフットプリントを維持しながら、敵攻撃を防御するリアルタイム自己調整(RTST)モデレータフレームワークを導入する。
われわれは、GoogleのGeminiモデルを使って、近代的で効果的なジェイルブレイクに対して、その効果を実証的に評価する。
本研究は, 従来の微調整モデルや分類器モデルに対して, ジェイルブレイク防御のための適応的かつ最小限の侵入型フレームワークの利点を示すものである。
関連論文リスト
- STShield: Single-Token Sentinel for Real-Time Jailbreak Detection in Large Language Models [31.35788474507371]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対してますます脆弱になっている。
本稿では,リアルタイムジェイルブレイク判定のための軽量フレームワークSTShieldを紹介する。
論文 参考訳(メタデータ) (2025-03-23T04:23:07Z) - ShieldLearner: A New Paradigm for Jailbreak Attack Defense in LLMs [4.534938642552179]
ShieldLearnerは、防衛における人間の学習を模倣する新しいパラダイムである。
試行錯誤によって、アタックシグネチャを自動でパターンアトラスに蒸留する。
Adaptive Adversarial Augmentationは、防御されたプロンプトの逆のバリエーションを生成する。
論文 参考訳(メタデータ) (2025-02-16T18:47:41Z) - Latent-space adversarial training with post-aware calibration for defending large language models against jailbreak attacks [23.793583584784685]
大規模言語モデル(LLM)は、システム脆弱性を利用して安全対策を回避し、有害または不適切な出力を誘発するジェイルブレイク攻撃の影響を受ける。
LATPC(Latent-space Adrial Training with Post-aware framework)を紹介する。
LATPCは有害な入力と良性入力を対比することにより安全性に重要な潜伏次元を同定し、ターゲットの拒絶特徴除去攻撃を適応的に構築する。
論文 参考訳(メタデータ) (2025-01-18T02:57:12Z) - Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment [97.38766396447369]
訓練時安全アライメントにもかかわらず、Multimodal Large Language Models (MLLM) はジェイルブレイク攻撃に対して脆弱である。
我々は,ジェイルブレイク攻撃に対する防御のために,制御復号化による安全な報酬モデルを活用する推論時防御フレームワークImmuneを提案する。
論文 参考訳(メタデータ) (2024-11-27T19:00:10Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。