論文の概要: AlignSentinel: Alignment-Aware Detection of Prompt Injection Attacks
- arxiv url: http://arxiv.org/abs/2602.13597v1
- Date: Sat, 14 Feb 2026 04:35:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.2288
- Title: AlignSentinel: Alignment-Aware Detection of Prompt Injection Attacks
- Title(参考訳): AlignSentinel: プロンプトインジェクション攻撃のアライメント・アウェア検出
- Authors: Yuqi Jia, Ruiqi Wang, Xilong Wang, Chong Xiang, Neil Gong,
- Abstract要約: プロンプトインジェクション攻撃はLLMの入力に悪意のある命令を挿入し、意図した命令ではなくアタッカー・チョーゼンタスクに誘導する。
既存の検出防御は、通常、任意の入力を悪意のある命令で分類する。
本研究では,命令階層を記述し,不整合命令の入力,整合命令の入力,非整合入力の3つのカテゴリを区別する。
- 参考スコア(独自算出の注目度): 20.9342308883234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: % Prompt injection attacks insert malicious instructions into an LLM's input to steer it toward an attacker-chosen task instead of the intended one. Existing detection defenses typically classify any input with instruction as malicious, leading to misclassification of benign inputs containing instructions that align with the intended task. In this work, we account for the instruction hierarchy and distinguish among three categories: inputs with misaligned instructions, inputs with aligned instructions, and non-instruction inputs. We introduce AlignSentinel, a three-class classifier that leverages features derived from LLM's attention maps to categorize inputs accordingly. To support evaluation, we construct the first systematic benchmark containing inputs from all three categories. Experiments on both our benchmark and existing ones--where inputs with aligned instructions are largely absent--show that AlignSentinel accurately detects inputs with misaligned instructions and substantially outperforms baselines.
- Abstract(参考訳): % Prompt インジェクション攻撃は LLM の入力に悪意のある命令を挿入し、意図した命令ではなくアタッカー・チョーゼンタスクに誘導する。
既存の検出防御は、任意の入力を悪意のある命令で分類し、意図したタスクと整合した命令を含む良性入力を誤分類する。
本研究では,命令階層を記述し,不整合命令の入力,整合命令の入力,非整合入力の3つのカテゴリを区別する。
本稿では,LLMのアテンションマップから派生した特徴を利用して入力を分類する3クラス分類器AlignSentinelを紹介する。
評価を支援するため、3つのカテゴリの入力を含む最初の体系的なベンチマークを構築した。
AlignSentinelが不整合命令で入力を正確に検出し、ベースラインを大幅に上回ることを示す。
関連論文リスト
- Task--Specificity Score: Measuring How Much Instructions Really Matter for Supervision [1.0039548765955955]
textbfTask--Specificity Score (TSS) を提案する。
タスク固有の例を選択することで、トークン予算の厳格化の下で下流のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2026-02-03T04:57:47Z) - Know Thy Enemy: Securing LLMs Against Prompt Injection via Diverse Data Synthesis and Instruction-Level Chain-of-Thought Learning [31.790490397086856]
大規模言語モデル(LLM)統合アプリケーションはますます普及しているが、プロンプトインジェクション(PI)攻撃による重大なセキュリティ上の脆弱性に直面している。
InstruCoTは、多種多様な訓練データを合成し、微調整を指示レベルチェーンで行うPIディフェンスのモデル拡張手法である。
論文 参考訳(メタデータ) (2026-01-08T07:25:27Z) - Mitigating Indirect Prompt Injection via Instruction-Following Intent Analysis [48.70474961584997]
インダイレクト・プロンプト・インジェクション・アタック(IPIA)は大きな言語モデル(LLM)に重大な脅威をもたらす
IntentGuardは、命令追従インテント分析に基づく一般的な防御フレームワークである。
論文 参考訳(メタデータ) (2025-11-30T16:29:04Z) - Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction [68.6543680065379]
大型言語モデル(LLM)はインジェクション攻撃に弱い。
本研究では,LLMの命令追従能力を抑えるのではなく,新たな防御手法を提案する。
論文 参考訳(メタデータ) (2025-04-29T07:13:53Z) - Can Indirect Prompt Injection Attacks Be Detected and Removed? [94.67980597764245]
間接的インジェクション攻撃の検出・除去の可能性について検討した。
検出のために,既存のLCMとオープンソースの検出モデルの性能を評価する。
そこで本研究では,(1) インジェクション命令を含む部分をセグメント化して除去するセグメンテーション除去法,(2) 抽出モデルを訓練してインジェクション命令を識別・除去する抽出除去法,の2つの直感的手法を評価する。
論文 参考訳(メタデータ) (2025-02-23T14:02:16Z) - LLMs can be easily Confused by Instructional Distractions [16.060402139507644]
大規模言語モデルは、タスクに続く命令において例外的なスキルを示す。
この強度は、モデルが特定の命令を無視しなければならない場合に脆弱性になる可能性がある。
DIM-Benchと呼ばれる新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-02-05T04:52:57Z) - Instructional Segment Embedding: Improving LLM Safety with Instruction Hierarchy [53.54777131440989]
LLM(Large Language Models)は、セキュリティや安全性の脅威を受けやすい言語である。
これらの脆弱性の大きな原因の1つは、命令階層の欠如である。
本稿では,BERTにインスパイアされた命令セグメント埋め込み(ISE)技法を,現代の大規模言語モデルに導入する。
論文 参考訳(メタデータ) (2024-10-09T12:52:41Z) - MUFFIN: Curating Multi-Faceted Instructions for Improving Instruction-Following [21.08280516261786]
本稿では,命令追従型データセットキュレーションの新たなスキームであるMUFFINを紹介する。具体的には,これらのタスクをさまざまな入力ファセットで多様化することにより,入力毎のタスクを自動スケールする。
4つのゼロショットベンチマーク(Scaling-Inputs)とScaling Input-Free Tasksスキーム(Scaling Input-Free Tasksスキーム)にまたがる実験結果から、MUFFINでトレーニングされたLSMは、前述の2つのスキームでトレーニングされたものと比較して、一般的に優れた命令追従能力を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-12-05T02:32:08Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Certifying LLM Safety against Adversarial Prompting [70.96868018621167]
大規模言語モデル(LLM)は、入力プロンプトに悪意のあるトークンを追加する敵攻撃に対して脆弱である。
我々は,認証された安全保証とともに,敵のプロンプトを防御する最初の枠組みである消去・チェックを導入する。
論文 参考訳(メタデータ) (2023-09-06T04:37:20Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。