論文の概要: The System Prompt Is the Attack Surface: How LLM Agent Configuration Shapes Security and Creates Exploitable Vulnerabilities
- arxiv url: http://arxiv.org/abs/2603.25056v1
- Date: Thu, 26 Mar 2026 05:48:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.127654
- Title: The System Prompt Is the Attack Surface: How LLM Agent Configuration Shapes Security and Creates Exploitable Vulnerabilities
- Title(参考訳): LLMエージェントの構成がいかにセキュリティを形作り、爆発的な脆弱性を生み出すか
- Authors: Ron Litvak,
- Abstract要約: PhishNChipsは、10の迅速な戦略に基づく11のモデルの研究である。
単一モデルのフィッシングバイパス速度は、設定方法によって1%未満から97%の範囲である。
高い予測信号に関するプロンプトの最適化により,ベンチマーク性能が向上することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: System prompt configuration can make the difference between near-total phishing blindness and near-perfect detection in LLM email agents. We present PhishNChips, a study of 11 models under 10 prompt strategies, showing that prompt-model interaction is a first-order security variable: a single model's phishing bypass rate ranges from under 1% to 97% depending on how it is configured, while the false-positive cost of the same prompt varies sharply across models. We then show that optimizing prompts around highly predictive signals can improve benchmark performance, reaching up to 93.7% recall at 3.8% false positive rate, but also creates a brittle attack surface. In particular, domain-matching strategies perform well when legitimate emails mostly have matched sender and URL domains, yet degrade sharply when attackers invert that signal by registering matching infrastructure. Response-trace analysis shows that 98% of successful bypasses reason in ways consistent with the inverted signal: the models are following the instruction, but the instruction's core assumption has become false. A counter-intuitive corollary follows: making prompts more specific can degrade already-capable models by replacing broader multi-signal reasoning with exploitable single-signal dependence. We characterize the resulting tension between detection, usability, and adversarial robustness as a navigable tradeoff, introduce Safetility, a deployability-aware metric that penalizes false positives, and argue that closing the adversarial gap likely requires tool augmentation with external ground truth.
- Abstract(参考訳): システムプロンプトの構成は、LLMメールエージェントのフィッシングブラインドネスとほぼ完璧な検出の差を生じさせる。
提案するPhishNChipsは,10のプロンプト戦略に基づく11のモデルを対象とした研究で,プロンプト-モデル相互作用が1次セキュリティ変数であることを示し,フィッシングバイパス速度は設定方法によって1%未満から97%の範囲であり,同じプロンプトの偽陽性コストはモデルによって大きく異なることを示した。
次に、高い予測シグナルに関するプロンプトの最適化により、ベンチマークのパフォーマンスが向上し、3.8%の偽陽性率で最大93.7%のリコールが達成されるだけでなく、脆弱な攻撃面も生成されることを示した。
特に、ドメインマッチング戦略は、正当な電子メールが送信元とURLドメインにほぼ一致する場合においてうまく機能するが、攻撃者が一致するインフラストラクチャを登録することでその信号を逆転すると、大幅に低下する。
応答-トレース分析は、成功率の98%が逆信号と整合性のある方法で理性を通過することを示している: モデルは命令に従っているが、命令の中核的な仮定は偽である。
より具体的なプロンプトを作れば、より広範な多信号推論を悪用可能な単一信号依存に置き換えることで、既に利用可能なモデルを分解することができる。
我々は、検出、ユーザビリティ、および敵の堅牢性の間の緊張関係をナビゲート可能なトレードオフとして特徴付け、偽陽性をペナルティ化するデプロイ可能性対応の指標であるSafetilityを導入し、敵のギャップを埋めるためには、外部の根拠の真実とツールの強化が必要であると論じる。
関連論文リスト
- Repurposing Backdoors for Good: Ephemeral Intrinsic Proofs for Verifiable Aggregation in Cross-silo Federated Learning [30.440611659881494]
暗号証明からtextitIntrinsic Proofs へ移行する軽量アーキテクチャを提案する。
モデルパラメータに直接検証信号を埋め込むために、カタストロフィックフォーッティングを利用する。
我々の手法は、暗号ベースラインと比較して、ResNet-18で1000ドル以上のスピードアップを実現し、大規模モデルに効果的にスケールする。
論文 参考訳(メタデータ) (2026-03-11T12:04:18Z) - TraceGuard: Process-Guided Firewall against Reasoning Backdoors in Large Language Models [19.148124494194317]
我々は,小規模モデルを堅牢な推論ファイアウォールに変換するプロセス誘導型セキュリティフレームワークであるTraceGuardを提案する。
提案手法は,推理トレースを信頼できないペイロードとして扱い,詳細な防衛戦略を確立する。
グレーボックス設定における適応的敵に対する堅牢性を実証し、TraceGuardを実用的で低レイテンシなセキュリティプリミティブとして確立する。
論文 参考訳(メタデータ) (2026-03-02T22:19:13Z) - Reward Under Attack: Analyzing the Robustness and Hackability of Process Reward Models [68.45272703833209]
現状のPRMは、逆最適化圧力下で体系的に利用可能であることを示す。
これらの脆弱性を定量化するために、敵の圧力を増大させる3段階の診断フレームワークを導入する。
我々は、PRM-BiasBenchと診断ツールキットをリリースし、デプロイ前にロバストネスの評価を可能にする。
論文 参考訳(メタデータ) (2026-02-20T23:38:03Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - DISTIL: Data-Free Inversion of Suspicious Trojan Inputs via Latent Diffusion [0.7351161122478707]
ディープニューラルネットワークはトロイの木馬(バックドア)攻撃に弱い。
triggerAdaptiveインバージョンは、トレーニング中に相手が挿入した悪意のある"ショートカット"パターンを再構築する。
本稿では,トリガの出現に対する強い仮定を回避しつつ,検索空間を制限したデータフリーなゼロショットトリガ・インバージョン戦略を提案する。
論文 参考訳(メタデータ) (2025-07-30T16:31:13Z) - MultiPhishGuard: An LLM-based Multi-Agent System for Phishing Email Detection [3.187381965457262]
MultiPhishGuardは動的マルチエージェント検出システムである。
本フレームワークでは, 政策最適化強化学習アルゴリズムを用いて, 自動決定重み付けを行う5つの協調エージェントを用いる。
実験により、MultiPhishGuardは偽陽性(2.73%)と偽陰性率(0.20%)で高い精度(97.89%)を達成することが示された。
論文 参考訳(メタデータ) (2025-05-26T23:27:15Z) - EXPLICATE: Enhancing Phishing Detection through Explainable AI and LLM-Powered Interpretability [44.2907457629342]
EXPLICATEは、三成分アーキテクチャによるフィッシング検出を強化するフレームワークである。
既存のディープラーニング技術と同等ですが、説明性が向上しています。
自動AIとフィッシング検出システムにおけるユーザ信頼の重大な隔たりに対処する。
論文 参考訳(メタデータ) (2025-03-22T23:37:35Z) - Trigger without Trace: Towards Stealthy Backdoor Attack on Text-to-Image Diffusion Models [70.03122709795122]
テキストと画像の拡散モデルをターゲットにしたバックドア攻撃が急速に進んでいる。
現在のバックドアサンプルは良性サンプルと比較して2つの重要な異常を示すことが多い。
我々はこれらの成分を明示的に緩和することでTwT(Trigger without Trace)を提案する。
論文 参考訳(メタデータ) (2025-03-22T10:41:46Z) - Neural Antidote: Class-Wise Prompt Tuning for Purifying Backdoors in CLIP [51.04452017089568]
CBPT(Class-wise Backdoor Prompt Tuning)は、テキストプロンプトでCLIPを間接的に浄化する効率的な防御機構である。
CBPTは、モデルユーティリティを保持しながら、バックドアの脅威を著しく軽減する。
論文 参考訳(メタデータ) (2025-02-26T16:25:15Z) - On Trace of PGD-Like Adversarial Attacks [77.75152218980605]
敵対的攻撃は、ディープラーニングアプリケーションに対する安全性とセキュリティ上の懸念を引き起こす。
モデルの勾配一貫性を反映した適応応答特性(ARC)特性を構築する。
私たちの方法は直感的で、軽量で、非侵襲的で、データ不要です。
論文 参考訳(メタデータ) (2022-05-19T14:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。