論文の概要: Sentinel: SOTA model to protect against prompt injections
- arxiv url: http://arxiv.org/abs/2506.05446v1
- Date: Thu, 05 Jun 2025 14:07:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.170513
- Title: Sentinel: SOTA model to protect against prompt injections
- Title(参考訳): センチネル:SOTAモデルで即発注射を防ぐ
- Authors: Dror Ivry, Oran Nahum,
- Abstract要約: 大規模言語モデル(LLM)はますます強力になるが、インジェクション攻撃の迅速化には弱い。
本稿では,応答型/ModernBERT大規模アーキテクチャに基づく新しい検出モデルであるSentinelを紹介する。
包括的で目に見えない内部テストセットでは、センチネルは平均精度0.987、F1スコア0.980を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) are increasingly powerful but remain vulnerable to prompt injection attacks, where malicious inputs cause the model to deviate from its intended instructions. This paper introduces Sentinel, a novel detection model, qualifire/prompt-injection-sentinel, based on the \answerdotai/ModernBERT-large architecture. By leveraging ModernBERT's advanced features and fine-tuning on an extensive and diverse dataset comprising a few open-source and private collections, Sentinel achieves state-of-the-art performance. This dataset amalgamates varied attack types, from role-playing and instruction hijacking to attempts to generate biased content, alongside a broad spectrum of benign instructions, with private datasets specifically targeting nuanced error correction and real-world misclassifications. On a comprehensive, unseen internal test set, Sentinel demonstrates an average accuracy of 0.987 and an F1-score of 0.980. Furthermore, when evaluated on public benchmarks, it consistently outperforms strong baselines like protectai/deberta-v3-base-prompt-injection-v2. This work details Sentinel's architecture, its meticulous dataset curation, its training methodology, and a thorough evaluation, highlighting its superior detection capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)はますます強力になるが、悪意のある入力が意図した命令からモデルを逸脱させるようなインジェクション攻撃に弱いままである。
本稿では,<answerdotai/ModernBERT-large アーキテクチャに基づく,新しい検知モデルである Sentinel を紹介する。
ModernBERTの高度な機能を活用し、いくつかのオープンソースとプライベートコレクションからなる広範囲で多様なデータセットを微調整することで、Sentinelは最先端のパフォーマンスを実現している。
このデータセットのアマルガメイトは、ロールプレイングや命令ハイジャックから、バイアスのあるコンテンツを生成しようとする試み、幅広い良性な命令、特にニュアンス付きエラー修正と現実世界の誤分類を対象とするプライベートデータセットまで、さまざまなタイプの攻撃タイプを対象としていた。
包括的で目に見えない内部テストセットでは、センチネルは平均精度0.987、F1スコア0.980を示す。
さらに、公開ベンチマークで評価すると、Protectai/deberta-v3-base-prompt-injection-v2のような強いベースラインを一貫して上回る。
この研究は、Sentinelのアーキテクチャ、綿密なデータセットキュレーション、トレーニング方法論、そして徹底的な評価について詳述し、優れた検出能力を強調している。
関連論文リスト
- Benchmarking Unified Face Attack Detection via Hierarchical Prompt Tuning [58.16354555208417]
提示攻撃検出と顔偽造検出は、それぞれ物理メディアベースの提示攻撃とデジタル編集ベースのDeepFakeから顔データを保護するように設計されている。
これら2つのモデルの個別のトレーニングは、未知の攻撃やデプロイ環境への脆弱性を生じさせる。
本稿では,視覚言語モデルに基づく階層型プロンプトチューニングフレームワーク (HiPTune) を提案する。
論文 参考訳(メタデータ) (2025-05-19T16:35:45Z) - A Few Large Shifts: Layer-Inconsistency Based Minimal Overhead Adversarial Example Detection [9.335304254034401]
我々は、ターゲットモデル自体の内部の階層的不整合を利用して、軽量なプラグイン検出フレームワークを導入する。
本手法は, 計算オーバーヘッドを無視し, 正確さを損なうことなく, 最先端検出性能を実現する。
論文 参考訳(メタデータ) (2025-05-19T00:48:53Z) - Fine-tuned Large Language Models (LLMs): Improved Prompt Injection Attacks Detection [6.269725911814401]
大きな言語モデル(LLM)は、幅広い言語ベースのタスクに対処する能力が大きく進歩しているため、人気ツールになりつつある。
しかし、LSMのアプリケーションはインジェクション攻撃に対して非常に脆弱であり、致命的な問題を引き起こす。
このプロジェクトでは,インジェクションのインジェクション攻撃に関連するセキュリティ脆弱性について検討する。
論文 参考訳(メタデータ) (2024-10-28T00:36:21Z) - Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game [86.66627242073724]
本稿では,126,000以上のプロンプトインジェクションと46,000以上のプロンプトベースのプロンプトインジェクションに対する「防御」のデータセットを提案する。
我々の知る限り、これは現在、命令追従 LLM に対する人間生成の敵例の最大のデータセットである。
また、データセットを使用して、2種類のプロンプトインジェクションに対する耐性のベンチマークを作成し、これをプロンプト抽出とプロンプトハイジャックと呼ぶ。
論文 参考訳(メタデータ) (2023-11-02T06:13:36Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - Characterizing the Optimal 0-1 Loss for Multi-class Classification with
a Test-time Attacker [57.49330031751386]
我々は,任意の離散データセット上の複数クラス分類器に対するテスト時間攻撃の存在下での損失に対する情報理論的下位境界を求める。
本稿では,データと敵対的制約から競合ハイパーグラフを構築する際に発生する最適0-1損失を求めるための一般的なフレームワークを提供する。
論文 参考訳(メタデータ) (2023-02-21T15:17:13Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。