論文の概要: Detection Method for Prompt Injection by Integrating Pre-trained Model and Heuristic Feature Engineering
- arxiv url: http://arxiv.org/abs/2506.06384v1
- Date: Thu, 05 Jun 2025 06:01:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.248382
- Title: Detection Method for Prompt Injection by Integrating Pre-trained Model and Heuristic Feature Engineering
- Title(参考訳): 事前学習モデルとヒューリスティック特徴工学の統合によるプロンプト注入の検出法
- Authors: Yi Ji, Runzhi Li, Baolei Mao,
- Abstract要約: 即時注射攻撃は 重大な セキュリティ上の脅威として現れました
既存の防御機構は、有効性と一般化性の間のトレードオフに直面している。
本稿では,デュアルチャネル機能融合検出フレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.0823377252469144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the widespread adoption of Large Language Models (LLMs), prompt injection attacks have emerged as a significant security threat. Existing defense mechanisms often face critical trade-offs between effectiveness and generalizability. This highlights the urgent need for efficient prompt injection detection methods that are applicable across a wide range of LLMs. To address this challenge, we propose DMPI-PMHFE, a dual-channel feature fusion detection framework. It integrates a pretrained language model with heuristic feature engineering to detect prompt injection attacks. Specifically, the framework employs DeBERTa-v3-base as a feature extractor to transform input text into semantic vectors enriched with contextual information. In parallel, we design heuristic rules based on known attack patterns to extract explicit structural features commonly observed in attacks. Features from both channels are subsequently fused and passed through a fully connected neural network to produce the final prediction. This dual-channel approach mitigates the limitations of relying only on DeBERTa to extract features. Experimental results on diverse benchmark datasets demonstrate that DMPI-PMHFE outperforms existing methods in terms of accuracy, recall, and F1-score. Furthermore, when deployed actually, it significantly reduces attack success rates across mainstream LLMs, including GLM-4, LLaMA 3, Qwen 2.5, and GPT-4o.
- Abstract(参考訳): LLM(Large Language Models)の普及により、迅速なインジェクション攻撃が重要なセキュリティ脅威として浮上した。
既存の防御機構は、有効性と一般化性の間に重要なトレードオフに直面していることが多い。
このことは、広範囲のLLMに適用可能な効率的なプロンプトインジェクション検出方法の緊急の必要性を強調している。
この課題に対処するために,デュアルチャネル機能融合検出フレームワークであるDMPI-PMHFEを提案する。
事前訓練された言語モデルとヒューリスティックな特徴工学を統合して、迅速なインジェクション攻撃を検出する。
具体的には、DeBERTa-v3-baseを特徴抽出器として使用し、入力テキストを文脈情報に富んだ意味ベクトルに変換する。
並行して、既知の攻撃パターンに基づいてヒューリスティックなルールを設計し、攻撃でよく見られる明示的な構造的特徴を抽出する。
両方のチャネルの機能はその後融合され、最終的な予測を生成するために完全に接続されたニューラルネットワークを通過します。
このデュアルチャネルアプローチは、機能を抽出するためにDeBERTaのみに依存するという制限を緩和する。
様々なベンチマークデータセットによる実験結果から、DMPI-PMHFEは、精度、リコール、F1スコアの点で既存の手法よりも優れていることが示された。
さらに、実際に配備された場合、GLM-4、LLaMA 3、Qwen 2.5、GPT-4oなど、主要なLCMの攻撃成功率を大幅に低下させる。
関連論文リスト
- Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z) - DataSentinel: A Game-Theoretic Detection of Prompt Injection Attacks [101.52204404377039]
LLM統合されたアプリケーションとエージェントは、インジェクション攻撃に弱い。
検出方法は、入力が注入プロンプトによって汚染されているかどうかを判定することを目的とする。
本研究では,迅速なインジェクション攻撃を検出するゲーム理論手法であるDataSentinelを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:26:21Z) - Feature-Aware Malicious Output Detection and Mitigation [8.378272216429954]
有害反応拒絶(FMM)のための特徴認識手法を提案する。
FMMは、モデルの特徴空間内に悪意のある特徴が存在することを検知し、モデルの拒絶機構を適応的に調整する。
実験により,複数の言語モデルと多様な攻撃手法を用いたアプローチの有効性が示された。
論文 参考訳(メタデータ) (2025-04-12T12:12:51Z) - Attention Tracker: Detecting Prompt Injection Attacks in LLMs [62.247841717696765]
大型言語モデル (LLM) は様々なドメインに革命をもたらしたが、インジェクション攻撃に弱いままである。
そこで本研究では,特定の注意点が本来の指示から注入指示へと焦点を移す,注意散逸効果の概念を紹介した。
本研究では,アテンション・トラッカーを提案する。アテンション・トラッカーは,インジェクション・アタックを検出するために,インストラクション上の注意パターンを追跡する訓練不要な検出手法である。
論文 参考訳(メタデータ) (2024-11-01T04:05:59Z) - Palisade -- Prompt Injection Detection Framework [0.9620910657090188]
大規模言語モデルは、悪意のあるインジェクション攻撃に対して脆弱である。
本稿では,新しいNLPを用いたインジェクション検出手法を提案する。
階層化された入力スクリーニングプロセスを通じて精度と最適化を強調する。
論文 参考訳(メタデータ) (2024-10-28T15:47:03Z) - MKF-ADS: Multi-Knowledge Fusion Based Self-supervised Anomaly Detection System for Control Area Network [9.305680247704542]
制御エリアネットワーク(英: Control Area Network, CAN)は、車両ネットワークにおける電子制御ユニット(ECU)間の通信プロトコルである。
CANは、本質的にセキュリティ上のリスクのために、厳しいセキュリティ上の課題に直面している。
本稿では,MKF-ADSと呼ばれる自己教師付き多知識融合異常検出モデルを提案する。
論文 参考訳(メタデータ) (2024-03-07T07:40:53Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - 3D-IDS: Doubly Disentangled Dynamic Intrusion Detection [17.488666929017878]
ネットワークベースの侵入検知システム(NIDS)は、悪意のある活動のためのネットワークトラフィックを監視する。
既存の手法は、様々な未知の攻撃を宣言したり、様々な既知の攻撃を検出する際に矛盾なく機能する。
本稿では,2段階の特徴分散と動的グラフ拡散方式により,上記の課題に対処する新しい手法である3D-IDSを提案する。
論文 参考訳(メタデータ) (2023-07-02T00:26:26Z) - Evaluation of Parameter-based Attacks against Embedded Neural Networks
with Laser Injection [1.2499537119440245]
この研究は、レーザ断層注入を用いた32ビットのCortex-Mマイクロコントローラ上で、ビットフリップ攻撃(BFA)の成功例を実際に報告した。
非現実的なブルートフォース戦略を避けるために、レーザ断層モデルを考慮したパラメータから最も敏感なビット群を選択するのにシミュレーションがどのように役立つかを示す。
論文 参考訳(メタデータ) (2023-04-25T14:48:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。