論文の概要: Sentra-Guard: A Multilingual Human-AI Framework for Real-Time Defense Against Adversarial LLM Jailbreaks
- arxiv url: http://arxiv.org/abs/2510.22628v1
- Date: Sun, 26 Oct 2025 11:19:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.304969
- Title: Sentra-Guard: A Multilingual Human-AI Framework for Real-Time Defense Against Adversarial LLM Jailbreaks
- Title(参考訳): Sentra-Guard: 逆LLMジェイルブレイクに対するリアルタイム防御のための多言語AIフレームワーク
- Authors: Md. Mehedi Hasan, Ziaur Rahman, Rafid Mostafiz, Md. Abir Hossain,
- Abstract要約: Sentra-Guardは、大規模言語モデル(LLM)のためのリアルタイムモジュールディフェンスシステムである。
このフレームワークは、FAISSにインデックスされたSBERT埋め込み表現とハイブリッドアーキテクチャを使用して、プロンプトの意味をキャプチャする。
直接攻撃ベクトルと難解攻撃ベクトルの両方において、敵のプロンプトを識別する。
- 参考スコア(独自算出の注目度): 0.31984926651189866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a real-time modular defense system named Sentra-Guard. The system detects and mitigates jailbreak and prompt injection attacks targeting large language models (LLMs). The framework uses a hybrid architecture with FAISS-indexed SBERT embedding representations that capture the semantic meaning of prompts, combined with fine-tuned transformer classifiers, which are machine learning models specialized for distinguishing between benign and adversarial language inputs. It identifies adversarial prompts in both direct and obfuscated attack vectors. A core innovation is the classifier-retriever fusion module, which dynamically computes context-aware risk scores that estimate how likely a prompt is to be adversarial based on its content and context. The framework ensures multilingual resilience with a language-agnostic preprocessing layer. This component automatically translates non-English prompts into English for semantic evaluation, enabling consistent detection across over 100 languages. The system includes a HITL feedback loop, where decisions made by the automated system are reviewed by human experts for continual learning and rapid adaptation under adversarial pressure. Sentra-Guard maintains an evolving dual-labeled knowledge base of benign and malicious prompts, enhancing detection reliability and reducing false positives. Evaluation results show a 99.96% detection rate (AUC = 1.00, F1 = 1.00) and an attack success rate (ASR) of only 0.004%. This outperforms leading baselines such as LlamaGuard-2 (1.3%) and OpenAI Moderation (3.7%). Unlike black-box approaches, Sentra-Guard is transparent, fine-tunable, and compatible with diverse LLM backends. Its modular design supports scalable deployment in both commercial and open-source environments. The system establishes a new state-of-the-art in adversarial LLM defense.
- Abstract(参考訳): 本稿では,Sentra-Guardというリアルタイムモジュールディフェンスシステムを提案する。
このシステムは、大規模言語モデル(LLM)をターゲットにしたジェイルブレイクとインジェクションのインジェクション攻撃を検出し、緩和する。
このフレームワークは、FAISSでインデクシングされたSBERT埋め込み表現を備えたハイブリッドアーキテクチャを使用して、プロンプトの意味をキャプチャし、細調整されたトランスフォーマー分類器と組み合わせる。
直接攻撃ベクトルと難解攻撃ベクトルの両方において、敵のプロンプトを識別する。
このモジュールは動的にコンテキスト認識のリスクスコアを計算し、その内容とコンテキストに基づいてプロンプトが逆方向になる確率を推定する。
このフレームワークは言語に依存しない事前処理レイヤによる多言語レジリエンスを保証する。
このコンポーネントは意味評価のために、英語以外のプロンプトを自動的に英語に翻訳し、100以上の言語で一貫した検出を可能にする。
このシステムにはHITLフィードバックループが含まれており、人間の専門家によって、対向的な圧力下での継続的な学習と迅速な適応のために自動システムによる決定がレビューされる。
Sentra-Guardは、良心と悪意のあるプロンプトの二重ラベル付き知識ベースを進化させ、検出信頼性を高め、偽陽性を減らす。
評価結果によると、検出率は99.96%(AUC = 1.00, F1 = 1.00)、攻撃成功率(ASR)は0.004%である。
これは、LlamaGuard-2 (1.3%)やOpenAI Moderation (3.7%)のような主要なベースラインを上回っている。
ブラックボックスのアプローチとは異なり、Sentra-Guardは透明で微調整が可能で、多様なLLMバックエンドと互換性がある。
モジュール設計は、商用環境とオープンソース環境の両方でスケーラブルなデプロイメントをサポートする。
このシステムは、敵のLLM防衛における新たな最先端技術を確立する。
関連論文リスト
- HAMSA: Hijacking Aligned Compact Models via Stealthy Automation [3.7898376145698744]
大規模言語モデル(LLM)は、広範囲なアライメントの努力にもかかわらず有害なアウトプットを誘発できるジェイルブレイク攻撃の影響を受けやすい。
セマンティックに意味があり、ステルス的なジェイルブレイクプロンプトを進化させ、協調したコンパクトなLDMのための自動赤チームフレームワークを提案する。
本手法は,LLM における In-The-Wild Jailbreak Prompts と LLM における In-The-Wild Jailbreak Prompts から派生したアラビア語で,ネイティブアラビア語の言語学者によって注釈付けされた新たなキュレーションを行った。
論文 参考訳(メタデータ) (2025-08-22T15:57:57Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - OMNIGUARD: An Efficient Approach for AI Safety Moderation Across Modalities [54.152681077418805]
現在の検出アプローチは誤りがあり、特にモデル機能のミスマッチした一般化を利用する攻撃の影響を受けやすい。
OMNIGUARDは,言語やモダリティにまたがる有害なプロンプトを検出する手法である。
提案手法は,多言語環境において最強のベースラインよりも11.57%,有害なプロンプト分類精度を向上する。
論文 参考訳(メタデータ) (2025-05-29T05:25:27Z) - Helping Large Language Models Protect Themselves: An Enhanced Filtering and Summarization System [2.0257616108612373]
大規模言語モデルは、敵の攻撃、操作プロンプト、悪意のある入力のエンコードに弱い。
本研究は,LSMが敵対的あるいは悪意的な入力を自力で認識し,フィルタリングし,防御することのできる,ユニークな防御パラダイムを提案する。
論文 参考訳(メタデータ) (2025-05-02T14:42:26Z) - MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety [56.77103365251923]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
素早い分類のための多言語ガードレールを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:06Z) - TrustRAG: Enhancing Robustness and Trustworthiness in Retrieval-Augmented Generation [31.231916859341865]
TrustRAGは、生成のために取得される前に、悪意のある、無関係なコンテンツを体系的にフィルタリングするフレームワークである。
TrustRAGは、検索精度、効率、攻撃抵抗を大幅に改善する。
論文 参考訳(メタデータ) (2025-01-01T15:57:34Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。