論文の概要: Evaluating Prompt Injection Defenses for Educational LLM Tutors: Security-Usability-Latency Trade-offs
- arxiv url: http://arxiv.org/abs/2605.06669v2
- Date: Thu, 21 May 2026 15:20:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.658854
- Title: Evaluating Prompt Injection Defenses for Educational LLM Tutors: Security-Usability-Latency Trade-offs
- Title(参考訳): 教育用LDMチュータのプロンプトインジェクション対策の評価:セキュリティ-ユーザビリティ-レイテンシトレードオフ
- Authors: Alexandre Cristovão Maiorano,
- Abstract要約: ガードレールの設計には、敵の堅牢性、良質なタスクのユーザビリティ、応答レイテンシの明確なトレードオフが伴う。
決定論的パターンフィルタ,構造検証,コンテキストサンドボックス,セッションレベルの動作チェックを組み合わせた,ドメイン固有のマルチレイヤセーフガードパイプラインの評価を行った。
NeMoは16.22パーセントのFPRと1.5パーセントのレイテンシで0パーセントのバイパスに達し、Prompt Guardは38.48パーセントのFPRと3.60パーセントのバイパスを実現している。
- 参考スコア(独自算出の注目度): 51.56484100374058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Educational LLM tutors face a core AI alignment challenge: they must follow user intent while preserving pedagogical constraints and safety policies. We present an evaluation methodology for prompt-injection defenses in this setting, showing that guardrail design entails explicit trade-offs among adversarial robustness, benign-task usability, and response latency. We evaluate a domain-specific multi-layer safeguard pipeline combining deterministic pattern filters, structural validation, contextual sandboxing, and session-level behavioral checks. On a controlled holdout benchmark, the pipeline reaches low bypass and false positive rates with optimized average latency - an operating point that prioritizes pedagogical usability (zero false positives) while maintaining measurable attack resistance. We provide a reproducible benchmark protocol for head-to-head comparison under identical conditions, including stratified bootstrap confidence intervals, paired McNemar significance tests, multi-seed sensitivity sweeps, and direct evaluation of Prompt Guard and NeMo Guardrails on the same split with unified instrumentation. Results expose operational trade-offs: NeMo reaches 0 percent bypass at 16.22 percent FPR and roughly 1.5s latency, while Prompt Guard yields 38.48 percent bypass with 3.60 percent FPR. The framework supports evidence-based guardrail selection for AI tutoring systems under different institutional risk and usability requirements.
- Abstract(参考訳): 教育用LLM家庭教師は、教育上の制約と安全ポリシーを維持しながら、ユーザー意図に従う必要がある。
本稿では, 対向ロバスト性, ベニグ・タスクのユーザビリティ, 応答待ち時間の間に, ガードレール設計が明確なトレードオフを伴っていることを示す。
決定論的パターンフィルタ,構造検証,コンテキストサンドボックス,セッションレベルの動作チェックを組み合わせた,ドメイン固有のマルチレイヤセーフガードパイプラインの評価を行った。
制御されたホールトアウトベンチマークでは、パイプラインは平均遅延を最適化した低いバイパスと偽陽性率に達する。
同一条件下でのヘッド・ツー・ヘッド比較のための再現可能なベンチマークプロトコルとして, 階層化ブートストラップ信頼区間, ペア化McNemar重要度試験, マルチシード感度スイープ, および同一スプリット上でのプロンプトガードとネモガードレールの直接評価を行う。
NeMoは16.22パーセントのFPRと1.5パーセントのレイテンシで0パーセントのバイパスに達し、Prompt Guardは38.48パーセントのFPRと3.60パーセントのバイパスを実現している。
このフレームワークは、さまざまな機関的リスクとユーザビリティ要件の下で、AI教育システムのエビデンスベースのガードレール選択をサポートする。
関連論文リスト
- SecPI: Secure Code Generation with Reasoning Models via Security Reasoning Internalization [50.71047638695205]
RLM(Reasoning Language Model)は、プログラミングにおいてますます使われている言語モデルである。
しかし、最先端のRLMでさえ、生成されたコードに重大なセキュリティ脆弱性を頻繁に導入する。
我々は、構造化されたセキュリティ推論を内部化するためのRTMを教える微調整パイプラインであるSecPIを提案する。
論文 参考訳(メタデータ) (2026-04-04T04:29:11Z) - Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications [51.56484100374058]
我々は,エビデンスに基づくリリース決定を伴う品質ゲートを導入する自動自己テストフレームワークを提案する。
内部展開型多エージェント対話型AIシステムの縦型ケーススタディにより,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2026-03-13T20:44:15Z) - DRAFT: Task Decoupled Latent Reasoning for Agent Safety [59.46137757545185]
DRAFT(Task Decoupled Latent Reasoning for Agent Safety)を提案する。
エクストラクターは、完全な軌跡をコンパクトな連続的な潜伏ドラフトに蒸留し、リゾナーはドラフトと元の軌跡に共同で参加して安全性を予測する。
DRAFTの精度は63.27%(LoRA)から91.18%に向上した。
論文 参考訳(メタデータ) (2026-02-11T07:45:14Z) - PRISM: Festina Lente Proactivity -- Risk-Sensitive, Uncertainty-Aware Deliberation for Proactive Agents [11.440330367799513]
PRISMは、決定論的ゲートとデュアルプロセス推論アーキテクチャを結合する新しいフレームワークである。
フェスティナ・レンテ(ラテン語: "make haste slow")にインスパイアされた私たちは、受け入れ校正されたコスト由来の閾値でゲートする。
ProactiveBenchでは、PRISMは誤報を22.78%減らし、F1を20.14%改善している。
論文 参考訳(メタデータ) (2026-02-02T01:56:29Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - Rubric-Conditioned LLM Grading: Alignment, Uncertainty, and Robustness [4.129847064263056]
ルーブリックをベースとした短問合せ学習における大規模言語モデルの性能を体系的に評価する。
二つのタスクに対してアライメントは強いが、粗い粒度が増すにつれて劣化する。
実験により、モデルが注射に抵抗性がある一方で、同義置換に敏感であることが判明した。
論文 参考訳(メタデータ) (2025-12-21T05:22:04Z) - LatentGuard: Controllable Latent Steering for Robust Refusal of Attacks and Reliable Response Generation [4.29885665563186]
LATENTGUARDは、行動アライメントと教師付き潜在空間制御を組み合わせて、解釈可能で正確な安全操縦を行うフレームワークである。
本研究は, 実用性を損なうことなく, 安全性制御性と応答解釈性の両方を向上することを示す。
論文 参考訳(メタデータ) (2025-09-24T07:31:54Z) - Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。
本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。
特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-03-21T06:12:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。