論文の概要: Beyond Pattern Matching: Seven Cross-Domain Techniques for Prompt Injection Detection
- arxiv url: http://arxiv.org/abs/2604.18248v1
- Date: Mon, 20 Apr 2026 13:27:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.899537
- Title: Beyond Pattern Matching: Seven Cross-Domain Techniques for Prompt Injection Detection
- Title(参考訳): パターンマッチングを超えて: プロンプト注入検出のための7つのクロスドメイン技術
- Authors: Thamilvendhan Munirathinam,
- Abstract要約: 本研究は,大言語以外の分野から特定のメカニズムを移植する7つの検出手法を提案する。
7つのテクニックのうち3つは、プロンプトシールドv0.4.1リリース(Apache 2.0)で実装され、6つのデータセットにわたる4つの設定アブレーションで評価されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current open-source prompt-injection detectors converge on two architectural choices: regular-expression pattern matching and fine-tuned transformer classifiers. Both share failure modes that recent work has made concrete. Regular expressions miss paraphrased attacks. Fine-tuned classifiers are vulnerable to adaptive adversaries: a 2025 NAACL Findings study reported that eight published indirect-injection defenses were bypassed with greater than fifty percent attack success rates under adaptive attacks. This work proposes seven detection techniques that each port a specific mechanism from a discipline outside large-language-model security: forensic linguistics, materials-science fatigue analysis, deception technology from network security, local-sequence alignment from bioinformatics, mechanism design from economics, spectral signal analysis from epidemiology, and taint tracking from compiler theory. Three of the seven techniques are implemented in the prompt-shield v0.4.1 release (Apache 2.0) and evaluated in a four-configuration ablation across six datasets including deepset/prompt-injections, NotInject, LLMail-Inject, AgentHarm, and AgentDojo. The local-alignment detector lifts F1 on deepset from 0.033 to 0.378 with zero additional false positives. The stylometric detector adds 11.1 percentage points of F1 on an indirect-injection benchmark. The fatigue tracker is validated via a probing-campaign integration test. All code, data, and reproduction scripts are released under Apache 2.0.
- Abstract(参考訳): 現在のオープンソースプロンプトインジェクション検出器は、正規表現パターンマッチングと微調整変換器の2つのアーキテクチャ選択に収束している。
どちらも、最近の作業で具体化した失敗モードを共有します。
正規表現はパラフレーズ攻撃を見逃す。
2025年のNAACL Findingsの調査によると、8件の間接注射防衛は、適応攻撃による攻撃の成功率の50%以上でバイパスされた。
本研究は, 言語学, 材料・科学の疲労分析, ネットワークセキュリティからの偽装技術, バイオインフォマティクスからの局所配列アライメント, 経済からのメカニズム設計, 疫学からのスペクトル信号解析, コンパイラ理論からのテナント追跡という, 大規模言語モデルセキュリティ以外の分野から, それぞれの機構を移植する7つの検出手法を提案する。
7つのテクニックのうち3つは、push-shield v0.4.1リリース(Apache 2.0)で実装され、Deepset/prompt-injections、NotInject、LLMail-Inject、AgentHarm、AgentDojoを含む6つのデータセットの4つの設定アブレーションで評価されている。
局所配向検出器は、F1を0.033から0.378に上げ、追加の偽陽性はゼロとなる。
このスタイリメトリック検出器は、間接注入ベンチマークでF1の11.1ポイントを加算する。
疲労トラッカーは、確率・カンポ性統合テストにより検証される。
すべてのコード、データ、再生スクリプトはApache 2.0でリリースされている。
関連論文リスト
- OrgForge-IT: A Verifiable Synthetic Benchmark for LLM-Based Insider Threat Detection [0.0]
本稿では,決定論的シミュレーションエンジンが基底真理を維持し,言語モデルが表面の散文のみを生成する検証可能な合成ベンチマークを提案する。
コーパスは51日の模擬日、2,904回のテレメトリ記録を96.4%のノイズレートで記録し、単面と単日のトリアージ戦略を破るために設計された4つの検出シナリオをカバーしている。
論文 参考訳(メタデータ) (2026-03-23T19:03:53Z) - Synergistic Directed Execution and LLM-Driven Analysis for Zero-Day AI-Generated Malware Detection [0.12891210250935145]
自動マルウェア生成のためのLLMのウェポン化は、従来の検出パラダイムに現実的な脅威をもたらす。
本稿では,エスココール実行とエンフディープ学習に基づく脆弱性分類を組み合わせた,新しいハイブリッド分析フレームワークを提案する。
2,500 LLM合成サンプルからなるベンチマークでは、従来のマルウェアでは98.7%、AIによる脅威では97.5%の精度が達成されている。
論文 参考訳(メタデータ) (2026-03-10T00:25:41Z) - On the Insecurity of Keystroke-Based AI Authorship Detection: Timing-Forgery Attacks Against Motor-Signal Verification [0.0]
最近の提案では、AI生成コンテンツと人為的なテキストを区別するためにキーストロークタイミング信号を使うことを提唱している。
このタイプの防御は、2つの実践的な攻撃クラスに対して安全でないことを示す。
検出者がタイミングのみを観測した場合、特徴と内容の出所の相互情報はコピー型攻撃ではゼロとなる。
論文 参考訳(メタデータ) (2026-01-24T03:39:38Z) - Sentra-Guard: A Multilingual Human-AI Framework for Real-Time Defense Against Adversarial LLM Jailbreaks [0.31984926651189866]
Sentra-Guardは、大規模言語モデル(LLM)のためのリアルタイムモジュールディフェンスシステムである。
このフレームワークは、FAISSにインデックスされたSBERT埋め込み表現とハイブリッドアーキテクチャを使用して、プロンプトの意味をキャプチャする。
直接攻撃ベクトルと難解攻撃ベクトルの両方において、敵のプロンプトを識別する。
論文 参考訳(メタデータ) (2025-10-26T11:19:47Z) - Benchmarking Unified Face Attack Detection via Hierarchical Prompt Tuning [58.16354555208417]
PADとFFDはそれぞれ物理メディアベースのプレゼンテーションアタックとデジタル編集ベースのDeepFakeから顔データを保護するために提案されている。
これら2つのカテゴリの攻撃を同時に処理する統一顔攻撃検出モデルがないことは、主に2つの要因に起因する。
本稿では,異なる意味空間から複数の分類基準を適応的に探索する,視覚言語モデルに基づく階層型プロンプトチューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T16:35:45Z) - Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。
多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文 参考訳(メタデータ) (2024-03-17T16:36:26Z) - An Adversarial Attack Analysis on Malicious Advertisement URL Detection
Framework [22.259444589459513]
悪意のある広告URLは、サイバー攻撃の源泉であるため、セキュリティ上のリスクをもたらす。
既存の悪意のあるURL検出技術は制限されており、見えない機能やテストデータの一般化を扱うことができる。
本研究では,新しい語彙・ウェブスクラップ機能群を抽出し,機械学習技術を用いて不正広告URL検出システムを構築する。
論文 参考訳(メタデータ) (2022-04-27T20:06:22Z) - Zero-Query Transfer Attacks on Context-Aware Object Detectors [95.18656036716972]
敵は、ディープニューラルネットワークが誤った分類結果を生成するような摂動画像を攻撃する。
自然の多目的シーンに対する敵対的攻撃を防御するための有望なアプローチは、文脈整合性チェックを課すことである。
本稿では,コンテキスト整合性チェックを回避可能な,コンテキスト整合性攻撃を生成するための最初のアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-29T04:33:06Z) - Composite Adversarial Attacks [57.293211764569996]
敵対攻撃は、機械学習(ML)モデルを欺くための技術です。
本論文では,攻撃アルゴリズムの最適組み合わせを自動的に探索するための複合攻撃法(Composite Adrial Attack,CAA)を提案する。
CAAは11の防衛でトップ10の攻撃を破り、時間の経過は少ない。
論文 参考訳(メタデータ) (2020-12-10T03:21:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。