論文の概要: The Mirror Design Pattern: Strict Data Geometry over Model Scale for Prompt Injection Detection
- arxiv url: http://arxiv.org/abs/2603.11875v1
- Date: Thu, 12 Mar 2026 12:50:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.080861
- Title: The Mirror Design Pattern: Strict Data Geometry over Model Scale for Prompt Injection Detection
- Title(参考訳): ミラーデザインパターン:プロンプトインジェクション検出のためのモデルスケール上の厳密なデータ幾何学
- Authors: J Alex Corll,
- Abstract要約: データキュレーション設計パターンであるMirrorを導入し、プロンプトインジェクションコーパスを正と負の細胞にまとめる。
我々は,L1インジェクション検定において,厳密なデータ形状がモデルスケールよりも重要であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt injection defenses are often framed as semantic understanding problems and delegated to increasingly large neural detectors. For the first screening layer, however, the requirements are different: the detector runs on every request and therefore must be fast, deterministic, non-promptable, and auditable. We introduce Mirror, a data-curation design pattern that organizes prompt injection corpora into matched positive and negative cells so that a classifier learns control-plane attack mechanics rather than incidental corpus shortcuts. Using 5,000 strictly curated open-source samples -- the largest corpus supportable under our public-data validity contract -- we define a 32-cell mirror topology, fill 31 of those cells with public data, train a sparse character n-gram linear SVM, compile its weights into a static Rust artifact, and obtain 95.97\% recall and 92.07\% F1 on a 524-case holdout at sub-millisecond latency with no external model runtime dependencies. On the same holdout, our next line of defense, a 22-million-parameter Prompt Guard~2 model reaches 44.35\% recall and 59.14\% F1 at 49\,ms median and 324\,ms p95 latency. Linear models still leave residual semantic ambiguities such as use-versus-mention for later pipeline layers, but within that scope our results show that for L1 prompt injection screening, strict data geometry can matter more than model scale.
- Abstract(参考訳): プロンプト注入防御は、しばしば意味理解の問題としてフレーム化され、ますます大きなニューラル検出器に委譲される。
しかし、第1のスクリーニング層では、要求は異なる:検出器はすべてのリクエストで実行され、したがって高速で決定論的で、実行不可能で、監査可能である必要がある。
本研究では,データキュレーション設計パターンであるMirrorを導入し,プロンプトインジェクションコーパスを正負のセルに整理することで,インシデント・コーパス・ショートカットではなく,制御面攻撃機構を学習する。
32セルのミラートポロジを定義し、これらのセルの31を公開データで満たし、スパース文字のn-gram線形SVMをトレーニングし、静的なRustアーティファクトに重みをコンパイルし、外部モデルランタイムに依存しない524秒以下のレイテンシで95.97\%のリコールと92.07\%のF1を得る。
同じホールドアウトで、我々の次の防衛線である2200万パラメーターのプロンプトガード~2モデルは、44.35\%リコールと59.14\% F1を49\,ms中央値で、324\,ms p95レイテンシに到達した。
線形モデルは、後続のパイプライン層に対する利用逆化のような残余なセマンティックな曖昧さを残していますが、そのスコープでは、L1プロンプトインジェクションスクリーニングでは、厳密なデータジオメトリがモデルスケールよりも重要であることが示されています。
関連論文リスト
- Detect Anything in Real Time: From Single-Prompt Segmentation to Multi-Class Detection [0.0]
本稿では,SAM3を実時間マルチクラス検出器に変換する学習自由フレームワークを提案する。
val 2017 (5000イメージ、80クラス)では、1つのGTX 4080で15.8 FPS (4クラス、1008x1008)で55.8 APを達成した。
極端遅延ターゲットでは、冷凍エンコーダデコーダによるアダプタ蒸留は、13.9msのバックボーンで38.7 APを達成する。
論文 参考訳(メタデータ) (2026-03-12T02:05:11Z) - ReasoningBomb: A Stealthy Denial-of-Service Attack by Inducing Pathologically Long Reasoning in Large Reasoning Models [67.15960154375131]
大規模推論モデル(LRM)は、多段階推論トレースを明示した大規模言語モデルを拡張する。
この能力は、推論の高い計算コストを生かした、新しいタイプのプロンプト誘発推論時間拒否攻撃(PI-DoS)を導入している。
本稿では,強化学習に基づくPI-DoSフレームワークであるReasoningBombについて紹介する。
論文 参考訳(メタデータ) (2026-01-29T18:53:01Z) - LiQSS: Post-Transformer Linear Quantum-Inspired State-Space Tensor Networks for Real-Time 6G [85.58816960936069]
Sixth-Generation (6G) Open Radio Access Networks (O-RAN) における能動的およびエージェント的制御は、厳密なニアタイム(Near-RT)レイテンシと計算制約の下で制御グレードの予測を必要とする。
本稿では,効率的な無線テレメトリ予測のための変圧器後パラダイムについて検討する。
本稿では、自己アテンションを安定な状態空間動的カーネルに置き換える量子インスピレーション付き状態空間テンソルネットワークを提案する。
論文 参考訳(メタデータ) (2026-01-18T12:08:38Z) - Efficient Jailbreak Mitigation Using Semantic Linear Classification in a Multi-Staged Pipeline [1.2802720336459552]
プロンプトインジェクションとジェイルブレイク攻撃は、大規模言語モデル(LLM)ベースのシステムに永続的なセキュリティ上の課題をもたらす。
我々は,これらの脅威を軽量で多段階のパイプラインを通じて軽減する,効率的かつ体系的に評価された防衛アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-12-22T04:00:35Z) - HuggingR$^{4}$: A Progressive Reasoning Framework for Discovering Optimal Model Companions [50.61510609116118]
HuggingR$4$は、Reasoning、Retrieval、Refinement、Reflectionを組み合わせて効率的にモデルを選択する新しいフレームワークである。
作業性率は92.03%、理性率は82.46%に達し、それぞれ26.51%、33.25%を超える。
論文 参考訳(メタデータ) (2025-11-24T03:13:45Z) - Memory-SAM: Human-Prompt-Free Tongue Segmentation via Retrieval-to-Prompt [4.712714373340359]
Memory-SAMは、トレーニングなし、人間プロンプトなしのパイプラインである。
前のケースの小さなメモリから有効プロンプトを自動的に生成する。
その結果,検索とプロンプトは舌画像における不規則境界の,データ効率,ロバストなセグメンテーションを可能にすることが示唆された。
論文 参考訳(メタデータ) (2025-10-17T17:42:28Z) - PLEIADES: Building Temporal Kernels with Orthogonal Polynomials [6.2921559513184695]
本稿では,基本関数から発生する時間的カーネルを含むPLEIA(Lynomial Expansion In Adaptive Distributed Event Systems)というニューラルネットワークのクラスを紹介する。
低レイテンシでオンライン分類と検出を行うために、これらのネットワークをイベントベースのデータで相互接続することに重点を置いている。
論文 参考訳(メタデータ) (2024-05-20T17:06:24Z) - Tracking Meets LoRA: Faster Training, Larger Model, Stronger Performance [87.19164603145056]
実験室レベルの資源をトラッキングするための大規模ViTモデルのパワーを明らかにする手法であるLoRATを提案する。
私たちの作業の本質は、推論レイテンシを追加することなく、モデルパラメータの小さなサブセットを微調整するテクニックであるLoRAを適用することです。
我々はPETRの適応のみに基づくアンカーフリーヘッドを設計し、計算オーバーヘッドを少なくして性能を向上する。
論文 参考訳(メタデータ) (2024-03-08T11:41:48Z) - Cryptanalytic Extraction of Neural Network Models [56.738871473622865]
遠隔モデルのパラメータを浮動小数点精度まで効率的に盗むことができる差動攻撃を導入する。
我々の攻撃は、ReLUニューラルネットワークが一括線形関数であるという事実に依存している。
220倍の正確さと100倍のクエリを必要とするモデルを抽出する。
論文 参考訳(メタデータ) (2020-03-10T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。