論文の概要: Zero-Shot Embedding Drift Detection: A Lightweight Defense Against Prompt Injections in LLMs
- arxiv url: http://arxiv.org/abs/2601.12359v1
- Date: Sun, 18 Jan 2026 11:33:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.594999
- Title: Zero-Shot Embedding Drift Detection: A Lightweight Defense Against Prompt Injections in LLMs
- Title(参考訳): ゼロショット埋め込みドリフト検出:LDMにおけるプロンプト注入に対する軽量防御
- Authors: Anirudh Sekar, Mrinal Agarwal, Rachel Sharma, Akitsugu Tanaka, Jasmine Zhang, Arjun Damerla, Kevin Zhu,
- Abstract要約: 敵は電子メールやユーザー生成コンテンツなどの間接的な入力チャネルを利用してアライメント保護を回避する。
本稿では,Zero-Shot Embedding Drift Detection (ZEDD)を提案する。
ZEDDは、モデル内部へのアクセス、アタックタイプの事前知識、タスク固有の再トレーニングを必要とせずに動作する。
- 参考スコア(独自算出の注目度): 2.2448294058653455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt injection attacks have become an increasing vulnerability for LLM applications, where adversarial prompts exploit indirect input channels such as emails or user-generated content to circumvent alignment safeguards and induce harmful or unintended outputs. Despite advances in alignment, even state-of-the-art LLMs remain broadly vulnerable to adversarial prompts, underscoring the urgent need for robust, productive, and generalizable detection mechanisms beyond inefficient, model-specific patches. In this work, we propose Zero-Shot Embedding Drift Detection (ZEDD), a lightweight, low-engineering-overhead framework that identifies both direct and indirect prompt injection attempts by quantifying semantic shifts in embedding space between benign and suspect inputs. ZEDD operates without requiring access to model internals, prior knowledge of attack types, or task-specific retraining, enabling efficient zero-shot deployment across diverse LLM architectures. Our method uses adversarial-clean prompt pairs and measures embedding drift via cosine similarity to capture subtle adversarial manipulations inherent to real-world injection attacks. To ensure robust evaluation, we assemble and re-annotate the comprehensive LLMail-Inject dataset spanning five injection categories derived from publicly available sources. Extensive experiments demonstrate that embedding drift is a robust and transferable signal, outperforming traditional methods in detection accuracy and operational efficiency. With greater than 93% accuracy in classifying prompt injections across model architectures like Llama 3, Qwen 2, and Mistral and a false positive rate of <3%, our approach offers a lightweight, scalable defense layer that integrates into existing LLM pipelines, addressing a critical gap in securing LLM-powered systems to withstand adaptive adversarial threats.
- Abstract(参考訳): プロンプトインジェクション攻撃は、電子メールやユーザ生成コンテンツなどの間接的な入力チャネルを利用してアライメントセーフガードを回避し、有害または意図しないアウトプットを誘導するLLMアプリケーションにとって、ますます脆弱になっている。
アライメントの進歩にもかかわらず、最先端のLSMでさえ敵のプロンプトに対して広く脆弱であり、非効率なモデル固有のパッチを超えた、堅牢で生産的で一般化可能な検出メカニズムの緊急の必要性を強調している。
本研究は,Zero-Shot Embedding Drift Detection (ZEDD)を提案する。ZEDDは,直感的および間接的インジェクション法の両方を識別し,ベニグインプットと疑似入力の埋め込み空間におけるセマンティックシフトを定量化する軽量な低エンジニアリングオーバーヘッドフレームワークである。
ZEDDはモデル内部へのアクセス、アタックタイプに関する事前の知識、タスク固有の再トレーニングを必要とせずに動作し、多様なLLMアーキテクチャにまたがる効率的なゼロショットデプロイメントを可能にする。
提案手法では, 現実のインジェクション攻撃に起因した微妙な敵操作を捉えるために, 対向クリーンプロンプトペアとコサイン類似性によるドリフトの埋め込みの測定を行った。
頑健な評価を確保するため、公開されているソースから派生した5つのインジェクションカテゴリにまたがる包括的なLLMail-Injectデータセットを組み立て、再注釈する。
大規模な実験により、埋め込みドリフトは頑丈で伝達可能な信号であり、検出精度と操作効率において従来の方法よりも優れていることが示された。
Llama 3、Qwen 2、Mistralなどのモデルアーキテクチャ間での即時インジェクションの分類精度が93%以上で、<3%の偽陽性率で、当社のアプローチは、既存のLLMパイプラインに統合された軽量でスケーラブルな防御層を提供し、LLM駆動システムの適応的敵の脅威に対処するための重要なギャップに対処する。
関連論文リスト
- Embedding Poisoning: Bypassing Safety Alignment via Embedding Semantic Shift [23.0914017433021]
この研究は、モデルウェイトや入力テキストを変更することなく、埋め込み層出力に直接知覚不能な摂動を注入することで脆弱性を利用する、新しいデプロイメントフェーズ攻撃のクラスを特定する。
本稿では,リスクトークンに関連付けられた埋め込みに注意深く最適化された摂動を導入する,実用的なモデルに依存しないフレームワークである検索ベースの埋め込みポジショニングを提案する。
論文 参考訳(メタデータ) (2025-09-08T05:00:58Z) - From Threat to Tool: Leveraging Refusal-Aware Injection Attacks for Safety Alignment [4.379304291229695]
LLM攻撃技術を応用したトレーニングフリーでモデルに依存しないフレームワークであるRefusal-Aware Adaptive Injection (RAAI)を紹介する。
RAAIは内部の拒絶信号を検出し、事前に定義されたフレーズを適応的に注入することで、有害で流用な完了を誘導する。
実験の結果,RAAIはLDMを効果的に脱獄させ,平均で2.15%から61.04%までの有害反応率を増加させた。
論文 参考訳(メタデータ) (2025-06-07T08:19:01Z) - Detection Method for Prompt Injection by Integrating Pre-trained Model and Heuristic Feature Engineering [3.0823377252469144]
即時注射攻撃は 重大な セキュリティ上の脅威として現れました
既存の防御機構は、有効性と一般化性の間のトレードオフに直面している。
本稿では,デュアルチャネル機能融合検出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-05T06:01:19Z) - Defending against Indirect Prompt Injection by Instruction Detection [109.30156975159561]
InstructDetectorは、LLMの動作状態を利用して潜在的なIPI攻撃を特定する、新しい検出ベースのアプローチである。
InstructDetectorは、ドメイン内設定で99.60%、ドメイン外設定で96.90%の検出精度を達成し、攻撃成功率をBIPIAベンチマークで0.03%に下げる。
論文 参考訳(メタデータ) (2025-05-08T13:04:45Z) - DataSentinel: A Game-Theoretic Detection of Prompt Injection Attacks [87.66245688589977]
LLM統合されたアプリケーションとエージェントは、インジェクション攻撃に弱い。
検出方法は、入力が注入プロンプトによって汚染されているかどうかを判定することを目的とする。
本研究では,迅速なインジェクション攻撃を検出するゲーム理論手法であるDataSentinelを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:26:21Z) - Attention Tracker: Detecting Prompt Injection Attacks in LLMs [62.247841717696765]
大型言語モデル (LLM) は様々なドメインに革命をもたらしたが、インジェクション攻撃に弱いままである。
そこで本研究では,特定の注意点が本来の指示から注入指示へと焦点を移す,注意散逸効果の概念を紹介した。
本研究では,アテンション・トラッカーを提案する。アテンション・トラッカーは,インジェクション・アタックを検出するために,インストラクション上の注意パターンを追跡する訓練不要な検出手法である。
論文 参考訳(メタデータ) (2024-11-01T04:05:59Z) - Palisade -- Prompt Injection Detection Framework [0.9620910657090188]
大規模言語モデルは、悪意のあるインジェクション攻撃に対して脆弱である。
本稿では,新しいNLPを用いたインジェクション検出手法を提案する。
階層化された入力スクリーニングプロセスを通じて精度と最適化を強調する。
論文 参考訳(メタデータ) (2024-10-28T15:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。