論文の概要: Bypassing Prompt Injection Detectors through Evasive Injections
- arxiv url: http://arxiv.org/abs/2602.00750v1
- Date: Sat, 31 Jan 2026 14:32:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.376036
- Title: Bypassing Prompt Injection Detectors through Evasive Injections
- Title(参考訳): 飛散注入によるプロンプト注入検知器のバイパス
- Authors: Md Jahedur Rahman, Ihsen Alouani,
- Abstract要約: 大規模言語モデル (LLM) は、対話型および検索拡張システムでますます使われているが、タスクドリフトに弱いままである。
近年の研究では、LLMの隠れ層の活性化デルタに基づいて訓練された線形プローブが、そのようなドリフトを効果的に検出できることが示されている。
我々は,これらの検出器の逆最適化接尾辞に対する堅牢性を評価する。
- 参考スコア(独自算出の注目度): 5.850972474845073
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) are increasingly used in interactive and retrieval-augmented systems, but they remain vulnerable to task drift; deviations from a user's intended instruction due to injected secondary prompts. Recent work has shown that linear probes trained on activation deltas of LLMs' hidden layers can effectively detect such drift. In this paper, we evaluate the robustness of these detectors against adversarially optimised suffixes. We generate universal suffixes that cause poisoned inputs to evade detection across multiple probes simultaneously. Our experiments on Phi-3 3.8B and Llama-3 8B show that a single suffix can achieve high attack success rates; up to 93.91% and 99.63%, respectively, when all probes must be fooled, and nearly perfect success (>90%) under majority vote setting. These results demonstrate that activation delta-based task drift detectors are highly vulnerable to adversarial suffixes, highlighting the need for stronger defences against adaptive attacks. We also propose a defence technique where we generate multiple suffixes and randomly append one of them to the prompts while making forward passes of the LLM and train logistic regression models with these activations. We found this approach to be highly effective against such attacks.
- Abstract(参考訳): 大規模言語モデル (LLM) は、対話型および検索拡張システムでの利用が増えているが、タスクドリフトや、注入された二次プロンプトによるユーザの意図した命令からの逸脱に弱いままである。
近年の研究では、LLMの隠れ層の活性化デルタに基づいて訓練された線形プローブが、そのようなドリフトを効果的に検出できることが示されている。
本稿では,これらの検出器の逆最適化接尾辞に対する堅牢性を評価する。
有毒な入力を同時に検出する万能接尾辞を生成し、同時に複数のプローブを横断する検出を回避する。
Phi-3 3.8B と Llama-3 8B での実験では、全てのプローブを騙さなければならない場合、それぞれ93.91% と 99.63% の1つの接尾辞が、多数決でほぼ完全な成功 (>90%) を達成できることが示されている。
これらの結果から,アクティベーションデルタベースのタスクドリフト検出器は敵の接尾辞に対して極めて脆弱であり,適応攻撃に対する強力な防御の必要性が示唆された。
また,複数の接尾辞を生成し,その1つをプロンプトにランダムに付加し,LSMを前方通過させ,これらのアクティベーションでロジスティック回帰モデルを訓練する防衛手法を提案する。
このアプローチはこのような攻撃に対して非常に効果的であることがわかった。
関連論文リスト
- Zero-Shot Embedding Drift Detection: A Lightweight Defense Against Prompt Injections in LLMs [2.2448294058653455]
敵は電子メールやユーザー生成コンテンツなどの間接的な入力チャネルを利用してアライメント保護を回避する。
本稿では,Zero-Shot Embedding Drift Detection (ZEDD)を提案する。
ZEDDは、モデル内部へのアクセス、アタックタイプの事前知識、タスク固有の再トレーニングを必要とせずに動作する。
論文 参考訳(メタデータ) (2026-01-18T11:33:35Z) - TopicAttack: An Indirect Prompt Injection Attack via Topic Transition [92.26240528996443]
大規模言語モデル(LLM)は間接的なインジェクション攻撃に対して脆弱である。
提案するTopicAttackは,LLMに生成した遷移プロンプトを生成し,徐々にトピックをインジェクション命令にシフトさせる。
提案手法は, インジェクトからオリジナルへのアテンション比が高く, 成功確率が高く, ベースライン法よりもはるかに高い比を達成できることがわかった。
論文 参考訳(メタデータ) (2025-07-18T06:23:31Z) - Detection Method for Prompt Injection by Integrating Pre-trained Model and Heuristic Feature Engineering [3.0823377252469144]
即時注射攻撃は 重大な セキュリティ上の脅威として現れました
既存の防御機構は、有効性と一般化性の間のトレードオフに直面している。
本稿では,デュアルチャネル機能融合検出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-05T06:01:19Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - DataSentinel: A Game-Theoretic Detection of Prompt Injection Attacks [87.66245688589977]
LLM統合されたアプリケーションとエージェントは、インジェクション攻撃に弱い。
検出方法は、入力が注入プロンプトによって汚染されているかどうかを判定することを目的とする。
本研究では,迅速なインジェクション攻撃を検出するゲーム理論手法であるDataSentinelを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:26:21Z) - Real is not True: Backdoor Attacks Against Deepfake Detection [9.572726483706846]
本稿では,Bad-Deepfake(Bad-Deepfake)と命名された先駆的パラダイムを導入する。
我々のアプローチはトレーニングデータのサブセットを戦略的に操作することで、トレーニングされたモデルの運用特性に対する不均等な影響を軽減します。
論文 参考訳(メタデータ) (2024-03-11T10:57:14Z) - Robust Adversarial Attacks Detection based on Explainable Deep
Reinforcement Learning For UAV Guidance and Planning [4.640835690336653]
公の場で活動する無人航空機(UAV)エージェントに対する敵攻撃が増加している。
深層学習(DL)アプローチによるこれらのUAVの制御と誘導は、パフォーマンスの観点からは有益であるが、これらのテクニックの安全性と敵の攻撃に対する脆弱性に対する懸念を追加する可能性がある。
本稿では、これらのDLスキームとUAVを攻撃から保護する効率的な検出器を構築するためのDL法の説明可能性に基づく革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2022-06-06T15:16:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。