論文の概要: AlignSentinel: Alignment-Aware Detection of Prompt Injection Attacks
- arxiv url: http://arxiv.org/abs/2602.13597v1
- Date: Sat, 14 Feb 2026 04:35:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.2288
- Title: AlignSentinel: Alignment-Aware Detection of Prompt Injection Attacks
- Title(参考訳): AlignSentinel: プロンプトインジェクション攻撃のアライメント・アウェア検出
- Authors: Yuqi Jia, Ruiqi Wang, Xilong Wang, Chong Xiang, Neil Gong,
- Abstract要約: プロンプトインジェクション攻撃はLLMの入力に悪意のある命令を挿入し、意図した命令ではなくアタッカー・チョーゼンタスクに誘導する。
既存の検出防御は、通常、任意の入力を悪意のある命令で分類する。
本研究では,命令階層を記述し,不整合命令の入力,整合命令の入力,非整合入力の3つのカテゴリを区別する。
- 参考スコア(独自算出の注目度): 20.9342308883234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: % Prompt injection attacks insert malicious instructions into an LLM's input to steer it toward an attacker-chosen task instead of the intended one. Existing detection defenses typically classify any input with instruction as malicious, leading to misclassification of benign inputs containing instructions that align with the intended task. In this work, we account for the instruction hierarchy and distinguish among three categories: inputs with misaligned instructions, inputs with aligned instructions, and non-instruction inputs. We introduce AlignSentinel, a three-class classifier that leverages features derived from LLM's attention maps to categorize inputs accordingly. To support evaluation, we construct the first systematic benchmark containing inputs from all three categories. Experiments on both our benchmark and existing ones--where inputs with aligned instructions are largely absent--show that AlignSentinel accurately detects inputs with misaligned instructions and substantially outperforms baselines.
- Abstract(参考訳): % Prompt インジェクション攻撃は LLM の入力に悪意のある命令を挿入し、意図した命令ではなくアタッカー・チョーゼンタスクに誘導する。
既存の検出防御は、任意の入力を悪意のある命令で分類し、意図したタスクと整合した命令を含む良性入力を誤分類する。
本研究では,命令階層を記述し,不整合命令の入力,整合命令の入力,非整合入力の3つのカテゴリを区別する。
本稿では,LLMのアテンションマップから派生した特徴を利用して入力を分類する3クラス分類器AlignSentinelを紹介する。
評価を支援するため、3つのカテゴリの入力を含む最初の体系的なベンチマークを構築した。
AlignSentinelが不整合命令で入力を正確に検出し、ベースラインを大幅に上回ることを示す。
関連論文リスト
- Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction [68.6543680065379]
大型言語モデル(LLM)はインジェクション攻撃に弱い。
本研究では,LLMの命令追従能力を抑えるのではなく,新たな防御手法を提案する。
論文 参考訳(メタデータ) (2025-04-29T07:13:53Z) - Instructional Segment Embedding: Improving LLM Safety with Instruction Hierarchy [53.54777131440989]
LLM(Large Language Models)は、セキュリティや安全性の脅威を受けやすい言語である。
これらの脆弱性の大きな原因の1つは、命令階層の欠如である。
本稿では,BERTにインスパイアされた命令セグメント埋め込み(ISE)技法を,現代の大規模言語モデルに導入する。
論文 参考訳(メタデータ) (2024-10-09T12:52:41Z) - MUFFIN: Curating Multi-Faceted Instructions for Improving Instruction-Following [21.08280516261786]
本稿では,命令追従型データセットキュレーションの新たなスキームであるMUFFINを紹介する。具体的には,これらのタスクをさまざまな入力ファセットで多様化することにより,入力毎のタスクを自動スケールする。
4つのゼロショットベンチマーク(Scaling-Inputs)とScaling Input-Free Tasksスキーム(Scaling Input-Free Tasksスキーム)にまたがる実験結果から、MUFFINでトレーニングされたLSMは、前述の2つのスキームでトレーニングされたものと比較して、一般的に優れた命令追従能力を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-12-05T02:32:08Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。